一、操作步骤
今天教大家抓取搜狐的新闻文章,重点讲解怎么抓取到完整的正文内容,怎么批量抓取到更多新闻,方法是通用的,大家可以应用到其他新闻网站的抓取,总体操作步骤如下:
二、案例+操作步骤
- 采集规则:搜狐新闻正文采集
- 样本网址:http://www.sohu.com/a/227999170_123753?_f=index_chan08news_8&qq-pf-to=pcqq.temporaryc2c
- 采集内容:新闻标题、作者、时间、正文
第一步、打开网页
1.1,打开集搜客软件,输入网址然后敲Enter键,等网页加载出来后再点击右上角的“定义规则”按钮,可以看到有一个浮窗显示出来,这是工作台,下面定义规则就会输出在上面。
1.2,在工作台输入主题名,然后点击查重,如果提示被占用,就要换一个名字,保证主题名是唯一的。