自己做采集程序

现在网上的采集程序很多,但是有时候你发现一个好的网站,想自己做个采集工具采集一些信息,就需要自己去写程序了,其实这样的采集程序并不难写,主要是去分析源网站的网页结构。
首先去下载个XMLHTTP的类文件:
<%
Class xhttp
private cset,sUrl,sError
Private Sub Class_Initialize()
'cset="UTF-8"
cset="GB2312"
sError=""
end sub

Private Sub Class_Terminate()
End Sub

Public Property LET URL(theurl)
sUrl=theurl
end property
public property GET BasePath()
BasePath=mid(sUrl,1,InStrRev(sUrl,"/")-1)
end property
public property GET FileName()
FileName=mid(sUrl,InStrRev(sUrl,"/")+1)
end property
public property GET Html()
Html=BytesToBstr(getBody(sUrl))
end property

public property GET xhttpError()
xhttpError=sError
end property

private Function BytesToBstr(body)
on error resume next
'Cset:GB2312 UTF-8
dim objstream
set objstream = Server.CreateObject("adodb.stream")
with objstream
.Type = 1 '
.Mode = 3 '
.Open    
.Write body  '
.Position = 0 '
.Type = 2  '
.Charset = Cset  '
BytesToBstr = .ReadText '
.Close
end with
set objstream = nothing
End Function

private function getBody(surl)
on error resume next
dim xmlHttp
'Set xmlHttp=server.createobject("Msxml2.XMLHTTP.4.0")
'set xmlHttp=server.createobject("Microsoft.XMLHTTP")
set xmlHttp=server.createobject("MSXML2.ServerXMLHTTP")
xmlHttp.setTimeouts 10000,10000,10000,30000
xmlHttp.open "GET",surl,false
xmlHttp.send
if xmlHttp.readystate=4 then
'if xmlHttp.status=200 then
 getBody=xmlhttp.responsebody
'end if
 else
 getBody=""
end if

if Err.Number<>0 then
sError=Err.Number
Err.clear
else
sError=""
end if
set xmlHttp=nothing
end function

Public function saveimage(tofile,isoverwrite)
on error resume next
dim objStream,objFSO,imgs

if Not isoverwrite Then
 Set objFSO = Server.CreateObject("Scripting.FileSystemObject")
 If objFSO.FileExists(Server.MapPath(tofile)) Then
  Exit Function
 End If
 Set objFSO = Nothing
End IF

imgs=getBody(sUrl)
Set objStream = Server.CreateObject("ADODB.Stream")
with objStream
.Type =1
.Open
.write imgs
.SaveToFile server.mappath(tofile),2
.Close()
end with
set objstream=nothing
end function

end class

%>
用了这个类文件,做起事情来就方便多了。
然后就可以分析采集网站的网页结构,写采集程序了。
下面给个例子:
<!--#include file="conn.asp"-->
<!--#include file="inc/xhttp_class.asp"-->
<!--#include file="inc/function.asp"-->
<%
server.ScriptTimeout = 1000
%>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>BT采集器</title>
</head>
<body>
<form name="form1" method="post" action="get81bt.asp">
分类ID:
  <input type="text" name="cid" value="<%=request("cid")%>"><br>
开始ID:
  <input type="text" name="startid" value="<%=request("startid")%>">
  <br>
  结束ID:
  <input type="text" name="overid" value="<%=request("overid")%>">
  <br>
  分类名称:<input type="text" name="classname" value="<%=request("classname")%>">为空自动获取
  <br>
  <input name="action" type="hidden" id="action" value="getdata">
  <input type="submit" name="Submit" value="采集">
</form>
当前ID:<%=request("id")%> <br>
<%
dim action

action = Request("action")
if action = "getdata" then
        cid = Request("cid")
        startid = Request("startid")
        overid = Request("overid")
        id = Request("id")       
        if id = "" then id = startid
       
        set objxhttp = new xhttp
       
        objxhttp.URL = "http://www.81dd.com/Class/"&cid&"_"&id&".htm"
        content = objxhttp.Html
       
        if InStr(content,"网站维护中") then
                call NextID
                response.End()
        end if
       
        list = GetContent(content,"<!--内容开始-->","<!--内容结束-->",0)
       
        Dim regEx, Match, Matches,patrn
        Set regEx = New RegExp
        patrn = "<a href=""../BtHtml/(.+?)"">"
        regEx.Pattern = patrn
        regEx.IgnoreCase = True
        regEx.Global = True
        Set Matches = regEx.Execute(list)
        on error resume next
        For Each Match in Matches

                'response.write Match.Value & "<br>"
                weburl = "http://www.81dd.com/BtHtml/" & regEx.Replace(Match.Value,"$1")
                response.write weburl & "<br>"
                response.Flush()
               
                objxhttp.URL = weburl
                cpage = objxhttp.Html       
                cpage = GetContent(cpage,"<!--内容开始-->","<!--内容结束-->",0)
               
                title = GetContent(cpage,"BT资源名称:<strong>","</strong>",0)
                title = stripHTML(title)
               
                IF Request("classname") <> "" then
                        classname = Request("classname")
                Else               
                        if InStr(title,"喜剧") then
                                classname = "喜剧"
                        Elseif InStr(title,"动作") then
                                classname = "动作"
                        Elseif InStr(title,"惊悚") then
                                classname = "惊悚"
                        Elseif InStr(title,"犯罪") then
                                classname = "犯罪"
                        Elseif InStr(title,"恐怖") then
                                classname = "恐怖"
                        Elseif InStr(title,"爱情") then
                                classname = "爱情"
                        Elseif InStr(title,"冒险") then
                                classname = "冒险"
                        Elseif InStr(title,"科幻") then
                                classname = "科幻"
                        Elseif InStr(title,"悬念") then
                                classname = "悬念"
                        Elseif InStr(title,"奇幻") then
                                classname = "奇幻"
                        Elseif InStr(title,"战争") then
                                classname = "战争"
                        Elseif InStr(title,"连续剧") then
                                classname = "连续剧"
                        Elseif InStr(title,"综艺") then
                                classname = "综艺"
                        Elseif InStr(title,"灾难") then
                                classname = "灾难"
                        Elseif InStr(title,"伦理") then
                                classname = "伦理"
                        Elseif InStr(title,"动漫") or InStr(title,"动画") then
                                classname = "动漫"
                        Elseif InStr(title,"国语") or InStr(title,"集") then
                                classname = "其他影视"
                        Else
                                classname = "其他"
                        End if
                End IF
               
                intro = GetContent(cpage,"<tr><td width=770 bgcolor=#FFFFFF><div style=""margin:10px;line-height:150%"">","</div>",0)
                intro = Replace(intro,"<br />","[br]")
                intro = Replace(intro,"<BR />","[br]")
                intro = Replace(intro,"<BR>","[br]")
                intro = Replace(intro,"<br>","[br]")
                intro = Replace(intro,"<p>","[p]")
                intro = Replace(intro,"<P>","[p]")
                intro = Replace(intro,"</p>","[/p]")
                intro = Replace(intro,"</P>","[p]")
                intro = Replace(intro,"<img","[img")
                intro = Replace(intro,"<IMG","[img")       
                intro = stripHTML(intro)
                intro = Replace(intro,"[br]","<br>")
                intro = Replace(intro,"[p]","<p>")
                intro = Replace(intro,"[/p]","</p>")
                intro = Replace(intro,"[img","<img")
                intro = Replace(intro,"[img]","<img src=")
                intro = Replace(intro,"[/img]",">")
                intro = Replace(intro,"[IMG]","<img src=")
                intro = Replace(intro,"[/IMG]",">")
                'response.write t
                'response.End()
               
                addtime = Trim(GetContent(cpage,"发布时间:"," ",0))
                if Not IsDate(addtime) then addtime = now()
               
                username = "bt"
               
                filesize = GetContent(content,"BT文件大小:"," ",0)
               
                title2 = title
               
                downurl = GetContent(cpage,"<a style=""color:red"" href=""","""",0)

                p = CDate(addtime)
                Dim sRnd
                Randomize
                sRnd = Int(900 * Rnd) + 100
                sFileName = year(p) & month(p) & day(p) & hour(now) & minute(now) & second(now) & sRnd & ".torrent"
               
                url = "torrent/" & year(p) & "-" & month(p) & "-" & day(p) & "/" & sFileName
                Call CreateF(url)
               
                'Text
                Response.Write classname & "<br>"
                Response.write title & "<br>"
                'response.Write intro & "<br>"
                'response.Write addtime & "<br>"
                'response.Write username & "<br>"
                'response.Write filesize & "<br>"
                response.Write downurl & "<br>"
                response.Write url & "<br>"
                response.Flush()
               
                'response.End()
                'database

                if err.number = 0 then
                        if (Not IsNull(title)) and title <> "" and downurl <> "" then
                                set rs = server.CreateObject("adodb.recordset")
                                sql = "select * from bt_class where classname = '" & classname & "'"
                                rs.open sql,conn,1,3
                                if rs.eof then
                                        rs.addnew
                                        rs("classname") = classname
                                        rs.update
                                end if
                                classid = rs("classid")
                                rs.close
                                set rs = nothing
                               
                                set rs = server.CreateObject("adodb.recordset")
                                sql = "select * from bt_movie where title in ('" & title & "')"
                                rs.open sql,conn,1,3
                                if rs.eof then
                                        response.Write "<div><font color=blue>写入数据库...</font></div>"
                                        response.Flush()
                                        rs.addnew                       
                                        rs("classid") = classid
                                        rs("title") = title
                                        rs("title2") = title2
                                        rs("intro") = intro
                                        rs("username") = username
                                        rs("filesize") = filesize
                                        rs("url") = url
                                        rs("serverid") = 1
                                        rs("addtime") = addtime
                                        rs("ismake") = 0
                                        rs.update
                                       
                                        objxhttp.URL = downurl
                                        objxhttp.saveimage url,False
                                else
                                        response.Write "<div><font color=red>已经存在!</font></div>"
                                end if
                                rs.close
                                set rs = nothing
                               
                                'objxhttp.URL = downurl
                                'objxhttp.saveimage url,False
                        End IF
               
                Else
                        err.clear
                End IF
                response.Write "-------------------------------------------<br>"
        Next
        set regEx = nothing
       
       
        response.Write "下一页<br>"
        response.Flush()
       
        Call NextID()
       
end if

Sub NextID
        conn.close
        set conn = nothing
       
        if cint(startid) < cint(overid) and cint(id) < cint(overid) then
                response.Write "<script>location.href='get81bt.asp?action=getdata&classname=" & Request("classname") & "&cid=" & cid & "&startid=" & startid & "&overid=" & overid & "&id="& id + 1 &"'</script>"
        Elseif cint(startid) > cint(overid) and cint(id) > cint(overid) then
                response.Write "<script>location.href='get81bt.asp?action=getdata&classname=" & Request("classname") & "&cid=" & cid & "&startid=" & startid & "&overid=" & overid & "&id="& id - 1 &"'</script>"
        Else
                Response.Write "采集完成!<br>"
                response.End()
        End if
End Sub

%>

</body>
</html>

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: LabVIEW是一种非常强大的工具,用于开发数据采集和控制系统。LabVIEW采集采集程序下载的目的是为了将采集卡的数据传输到LabVIEW中进行分析和处理。 首先,您需要选择正确的采集卡,它应该与您的硬件设备和操作系统兼容。然后,您需要下载LabVIEW软件并安装它。一旦您完成安装并启动了软件,您可以开始编写您的采集程序。 在LabVIEW中,您可以选择从头开始编写采集程序,也可以使用现成的模板。为了简化开发过程,LabVIEW提供了常用被放在快捷栏上的函数和工具。例如,数据采集是一个常用的功能,因此在工具栏上有一个按钮。您可以将其拖动到界面中,然后设置采集卡和采集参数。当您完成设置后,您可以开始采集数据。 一旦您采集到数据,LabVIEW可以帮助您分析和处理它。您可以使用内置的分析工具来执行一系列操作,例如平滑、滤波、变换和分类。您还可以编写自己的算法来执行特定的分析。 在LabVIEW中,数据采集和分析是一个完整的过程。通过下载LabVIEW采集采集程序,您可以在较短的时间内构建高效的数据采集和处理系统。 ### 回答2: LabVIEW采集卡的采集程序下载方法如下: 1. 打开NI官网首页,点击“产品与服务”下的“驱动程序和软件”,进入产品支持页面。 2. 在搜索框中输入采集卡型号,比如“PCI-6251”,然后点击搜索。 3. 在搜索结果中找到“LabVIEW采集卡驱动程序”,点击进入。 4. 在该页面中选择合适的操作系统版本,然后点击下载。下载完成后,双击运行安装程序,按照提示完成驱动程序安装。 5. 安装完成后,打开LabVIEW软件,在界面中选择“文件”菜单下的“新建VI”。 6. 在新建VI的界面中,选择“NI Measurement & Automation Explorer”选项卡,找到采集卡,右键点击“创建轮廓”,然后按照提示设置采集程序的参数。 7. 设置完参数后,保存程序并运行,即可开始采集数据。 总的来说,LabVIEW采集卡的采集程序下载并不困难,只需要遵循上述步骤,就可以找到合适的驱动程序并完成设置和安装。同时,为了确保采集程序的顺利执行,还需注意选用合适的采集卡型号和操作系统版本,避免不必要的兼容性问题。 ### 回答3: 如果需要下载LabVIEW采集卡的采集程序,可以通过以下步骤进行操作: 第一步:安装LabVIEW软件。如果您还没有安装LabVIEW软件,需要先下载并安装。 第二步:选择合适的采集卡。根据您的需求选择一款合适的采集卡,并将其与计算机连接好。 第三步:打开LabVIEW软件。打开软件后,需要选择“新建VI”(即开启新的VI编辑器)。 第四步:选择采集卡模板。在VI编辑器中,选择“模板”菜单,然后选择“DAQ(Data Acquisition)Vis”,即可找到与采集卡相关的模板。 第五步:配置采集卡参数。在VI编辑器中,找到并打开相关模板后,需要根据实际需求配置采集卡的参数,比如采样频率、采样通道等。 第六步:保存并运行VI。完成配置后,将VI保存,然后点击运行即可开始采集数据。 需要注意的是,在下载采集程序之前,先要确保采集卡与计算机的连接正常,且驱动程序已经正确安装。另外,根据不同的采集卡型号和应用场景,可能会需要进行额外的设置和调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值