一、操作步骤
对于学习网页设计的人来说,有时候遇到了自己很喜欢的网页,却得不到它的html代码,或者得到的代码不完整。下面用网易新闻采集作为案例,教大家采集html源码,具体操作步骤如下:
二、案例规则+操作步骤
- 样本网址:http://news.163.com/16/1019/07/C3NO1BS100014SEH.html
- 采集内容:某模块节点的html代码
第一步:打开网页
1.1,打开网络爬虫,输入想要采集的样本网址并ENTER,加载出网页后再点击“定义规则”;
1.2,在工作台中输入主题名,并点击“查重”看主题名是否被占用。
第二步:标注信息
2.1,双击要抓取的目标信息,输入整理箱名和标签名,并勾上关键内