delphi抓取网页内容的程序

最新推荐文章于 2023-11-28 18:33:28 发布

iteye_4537

最新推荐文章于 2023-11-28 18:33:28 发布

阅读量318

点赞数

文章标签： php

抓取网页内容，通常大家以为到网上偷数据，然后把到收集到的数据挂到自己网上去。其实也可以将采集到的数据做为公司的参考，或把收集的数据跟自己公司的业务做对比等。

目前网页采集多为3P代码为多（3P即ASP、PHP
、JSP）。用得最有代表的就动易科技公司BBS中新闻采集系统，和网上流传的新浪新闻采集系统等都是用ASP程序来使用，但速度从理论上来说不是很好。
如果尝试用其它软件的多线程采集是不是更快？答案是肯定的。用DELPHI、VC、VB、JB都可以，PB似乎比较不好做。以下用DELPHI来解释采集
网页数据。

一、简单的新闻采集

新闻采集是最简单的，只要识别标题、副题、作者、出处、日期、新闻主体、分页就可以了。在采集之前肯定要取得网页的内容，所以在DELPHI里加入idHTTP控件（在indyClients面板），然后用idHTTP1.GET 方法取得网页的内容，声明如下：

function Get(AURL: string): string; overload;

AURL参数，是string类型，指定一个URL地址字符串。函数返回也是string类型，返回网页的HTML源文件。比如我们可以这样调用：

tmpStr:= idHTTP1.Get(‘http://blog.csdn.net/fkedwgwy’);

调用成功后，tmpstr变量里存储的就是网易主页的代码了。

接下来，讲一下数据的截取，这里，我定义了这么一个函数：

functionTForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;

var

in_star,in_end:integer;

begin

in_star:=AnsiPos(strbegin,strsource) length(strbegin);

in_end:=AnsiPos(strend,strsource);

result:=copy(strsource,in_sta,in_end-in_star);

end;

StrSource：string类型，表示HTML源文件。

StrBegin：string类型，表示截取开始的标记。

StrEnd：string，表示截取结束的标记。

函数返回字符串StrSource中从StrSource到StrBegin之间的一段文本。

比如：

strtmp:=TForm1.GetStr(‘A123BCD’,‘A’,‘BC’);

运行后，strtmp的值为：’123’。

关于函数里用到的AnsiPos和copy，都是系统定义的，可以从delphi的帮助文件里找到相关说明，我在这里也简单罗嗦一下：

function AnsiPos(const Substr, S: string): Integer

返回Substr在S中第一次出现的位置。

function copy(strsource,in_sta,in_end-in_star): string;

返回字符串strsource中,从in_sta（整型数据）开始到in_end-in_star（整型数据）结束的字符串。

有了以上函数，我们就可以通过设置各种标记，来截取想要的文章内容了。在程序中，比较麻烦的是我们需要设置许多标记，要定位某一项内容，必须设置
它的开始和结束标志。比如要取得网页上的文章标题，必须事先查看网页代码，查看出文章标题前边和后边的一些特征代码，通过这些特征代码，来截取文章的标
题。

下面我们来实际演示一下，假设要采集的文章地址为http://blog.csdn.net/fkedwgwy
代码为：

<wbr></wbr>

<wbr></wbr>

<wbr></wbr>

<wbr></wbr>

<wbr></wbr>

<wbr></wbr>

新建网页 1

<wbr></wbr>

<wbr></wbr>

文章标题<wbr></wbr>

ercolor="#111111" width="100%"
id="AutoNumber1">

作者

出处

这里是文章内容正文。<wbr></wbr>

上一页<wbr> 下一页</wbr>

<wbr></wbr>

<wbr></wbr>

第一步，我们用StrSource:=idHTTP1.Get(‘http://blog.csdn.net/fkedwgwy’);将网页代码保存在strsource变量中。

然后定义strTitle、strAuthor、strCopyFrom、strContent：

strTitle:= GetStr(StrSource,’’,’<wbr><wbr> ’):</wbr></wbr>

strAuthor:= GetStr(StrSource,’ [tr]’,’ [/td]’):

strCopyFrom:= GetStr(StrSource,’ ’,’ [/td][/tr]’):

strContent:= GetStr(StrSource,’,’<wbr><wbr> ’):</wbr></wbr>

这样，就能把文章的标题、副题、作者、出处、日期、内容和分页分别存储在以上变量中。

第二步，用循环的办法，打开下一页，并取得内容，加到strContent变量中。

StrSource:= idHTTP1.Get(‘new_ne.asp’);

strContent:= strContent<wbr> GetStr(StrSource,’,’<wbr><wbr> ’):</wbr></wbr></wbr>

然后再判断有没有下一页，如果还有就接着取得下一页的内容。

这样就完成了一个简单的截取过程。从以上的程序代码可以看到，我们使用的截取办法都是找截取内容的头部和尾部的，如果遇到这个头部和尾部有多个怎么办？似乎没办法，只会找到第一个，所以在找之前应该验证一下是不是只有一处有这个截取的内容的前后部。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

iteye_4537 CSDN认证博客专家 CSDN认证企业博客

码龄6年

0: 原创

-: 周排名

118万+: 总排名

335万+: 访问

: 等级

1万+: 积分

355: 粉丝

455: 获赞

120: 评论

2415: 收藏

私信

关注

热门文章

最新评论

C# 判断鼠标是否在picturebox上
2301_76620377: 为什么没有用
[MSSQL]SQL农历转换函数
Azoner: 作者 https://developer.aliyun.com/article/868341?spm=a2c6h.14164896.0.0.129e47c5U1RS7g&scm=20140722.S_community@@%E6%96%87%E7%AB%A0@@868341._.ID_868341-RL_%E5%86%9C%E5%8E%86%E6%97%A5%E6%9C%9F-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_10
Linux按退格键出现问号解决
Mrs C G: 一般键盘串键会出现这种按一个按键会出现两个字符，需要去查看设备和打印机那里，对键盘的属性进行调整，把字符速度调整成一个合适的范围
Linux按退格键出现问号解决
Mrs C G: 是不是串键了？
原码、反码、补码和移码其实很简单
做而论道_CS: 由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1；如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。　例如，有一个补码：1110 0000，它代表的十进制是：－128 + 64 + 32 = －32。如果，另一个补码：0110 0000，它代表的十进制是：0 + 64 + 32 = ＋96。仅仅使用【进制转换】，这不就完事了嘛！ “原码反码取反加一”，计算机老师就会整这些没用的！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。