html抓取文章,如何完整抓取搜狐新闻文章?

一、操作步骤

今天教大家抓取搜狐的新闻文章,重点讲解怎么抓取到完整的正文内容,怎么批量抓取到更多新闻,方法是通用的,大家可以应用到其他新闻网站的抓取,总体操作步骤如下:

f617881c6e540867cd6ed390cab210bb.png

二、案例+操作步骤采集规则:搜狐新闻正文采集

样本网址:http://www.sohu.com/a/227999170_123753?_f=index_chan08news_8&qq-pf-to=pcqq.temporaryc2c

采集内容:新闻标题、作者、时间、正文

第一步、打开网页

1.1,打开集搜客软件,输入网址然后敲Enter键,等网页加载出来后再点击右上角的“定义规则”按钮,可以看到有一个浮窗显示出来,这是工作台,下面定义规则就会输出在上面。

1.2,在工作台输入主题名,然后点击查重,如果提示被占用,就要换一个名字,保证主题名是唯一的。

4d04e8198208e9738551d7a6054eebfe.png

第二步:标注信息

2.1,在浏览器窗口里用鼠标单击想要抓取的内容,这里是选中了新闻标题,然后就会看到整个标题变成了黄色底,还有红框闪烁框住这个范围,根据黄色范围检查有没有选对信息,没问题再单击一下,弹出一个标签窗口,输入标签名字后,点击打勾保存或者敲enter键保存,规则里首次标注还要输入整理箱名字,确定之后在右上角的工作台里可以看到输出的数据结构;

87fe7b1141527f5faf594abfe737d749.png

2.2,按照前面的操作,把网页上的作者和发布时间也做上标注映射;

2.3,接下来要对正文做标注,如果你是点击正文的一个段落,只会选中了这一段的范围,想要抓取到全部的正文,要点击到正文的空白处,就会看到正文被全部选中,再点击一下做标注映射;

PS:如果是其他网页,不一定是点空白处选中全部,可以多点点其他位置,直到把你要的内容范围选中为止;

dd953907cb4d0c96789d11c87b3d213b.png

2.4,如果一直点击不到可以选中全部范围的位置,可以点一下目标信息的一部分,底部的dom窗口就会定位到这个信息对应的网页节点,然后点击包含这个节点的各个上层节点,直到网页上能看到选中了全部范围为止;

2f4dae57d1890f6ac093b32133f8cc27.png

2.5,然后右击这个节点,快捷菜单里选内容映射->新建抓取内容->输入标签名,这个操作结果是跟前面步骤2.3是一样的;

02ce7e7939b7293be849d6e572627180.png

第三步、存规则,抓取数据

3.1,点击右侧的测试按钮,预览输出信息是否完整,没有问题就点右上角的保存按钮,再点“爬数据”,就弹出一个DS打数机窗口,开始抓取数据;

6cc614854b8f86971e97339cf1654a0b.png

3.2,前面只抓到了一个网页新闻,很多人会问要怎么做才能抓取到更多新闻呢?很简单,只要网页结构跟样本页面一样,就可以使用这个规则来抓取信息,所以,我们可以把跟这个页面结构相同的其他搜狐新闻网址整理出来,然后添加到规则里,操作是在打数机上右键规则,点击“管理线索”然后选择“添加”,把网址拷贝进去再保存,然后点规则旁边的“单搜”,就开始逐个网页采集。另外,还可以用层级采集的方法,实现网址的自动导入,详情见《采网址做层级采集》。

542dfeae3652e5a5120d94071fa82c1c.png

3afa98f068ecb4cc43e62aa489b020f6.png

第四步、转为Excel表

4.1,采集成功的数据会以xml文件的形式保存在电脑的DataScraperWorks文件夹中,点击左上角的文件菜单->存储路径可以找到文件夹的位置。

c5c0f3c7a5638d7e7035a011910936be.png

4.2,然后我们可以将采集到的xml文件压缩成一个zip的压缩包,到会员中心的规则管理,选择对应的规则,再点击导入数据,选择压缩好的zip压缩包导入进去。导入成功之后再点击导出数据,下载下来的就是Excel文件了。

cf4f611a57bf29e7623edeb0b4d6a678.png

6c48a7e4f0ae1e9d7cbefd770ec96600.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值