asp采集和php采集,ASP_简单的asp采集代码教程,采集开始 第一步是分析要采集 - phpStudy...

简单的asp采集代码教程

采集开始

第一步是分析要采集的页面。

使用浏览器打开要采集的页面(如:http://sports.sina.com.cn/k/2008-09-15/04593948756.shtml,你可以其他页面),打开后,点击右键,查源文件。

第二步,找到要采集的内容所在位置。

假如我要采集这个页面上的标题和内容所在的位置:

标题在

之间

内容在<!-- 正文内容 begin -->和<!-- 正文内容 end -->之间

注意一下所在位置的唯一性,可以在找到后,使用编辑中的查找,看看是不是唯一的,尽可能是唯一的,如果不是,尽可能是第一个,如果再不行,只能更换

第三步,写代码

复制代码 代码如下:

< %

'功能:asp采集代码

'作者:wangsdong

'备注:支持原创程序,请保留此信息,谢谢

url="http://sports.sina.com.cn/k/2008-09-15/04593948756.shtml"

str=getHTTPPage(url)

title=strcut(str,"

","

",2)

content=strcut(str,"","",2)

response.write "新闻标题"&title&"
新闻内容:
"&content

Function getHTTPPage(url)

On Error Resume Next

dim http

set http=Server.createobject("Microsoft.XMLHTTP")

Http.open "GET",url,false

Http.send()

if Http.readystate<>4 then

exit function

end if

getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")

set http=nothing

If Err.number<>0 then

Response.Write "

服务器获取文件内容出错

"

Err.Clear

End If

End Function

Function BytesToBstr(body,Cset)

dim objstream

set objstream = Server.CreateObject("adodb.stream")

objstream.Type = 1

objstream.Mode =3

objstream.Open

objstream.Write body

objstream.Position = 0

objstream.Type = 2

objstream.Charset = Cset

BytesToBstr = objstream.ReadText

objstream.Close

set objstream = nothing

End Function

'截取字符串,1.包括起始和终止字符,2.不包括

Function strCut(strContent,StartStr,EndStr,CutType)

Dim strHtml,S1,S2

strHtml = strContent

On Error Resume Next

Select Case CutType

Case 1

S1 = InStr(strHtml,StartStr)

S2 = InStr(S1,strHtml,EndStr)+Len(EndStr)

Case 2

S1 = InStr(strHtml,StartStr)+Len(StartStr)

S2 = InStr(S1,strHtml,EndStr)

End Select

If Err Then

strCute = "

没有找到需要的内容。

"

Err.Clear

Exit Function

Else

strCut = Mid(strHtml,S1,S2-S1)

End If

End Function

% >

这样就可以的,我现在将得到的内容输出来,你可以将这些内容写入数据库,这样数据就是你的了。相关阅读:

z-blog的目录、留言、引用标签教程

在html文件引入其它html文件的几种方法

asp.net 数据库连接池浅析

正则表达式字面量在ECMAScript5中的变化

JQuery 学习笔记 element属性控制

ORACLE的合并函数

优秀产品设计中的9点良好的用户体验设计

UCenter Home二次开发指南

简述Oracle数据仓库的体系结构

DIV+CSS常用的网页布局代码

优化innerHTML操作(提高代码执行效率)

JavaScript的parseInt 取整使用

asp 存贮过程 (SQL版asp调用存储过程)

Windows7系统托盘处显示星期几的设置方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值