可以看到相关的数据接口,里面有新闻标题以及新闻详情的url地址
如何提取url地址
1、转成json,键值对取值;
2、用正则表达式匹配url地址;
两种方法都可以实现,看个人喜好
根据接口数据链接中的pager 变化进行翻页,其对应的就是页码。
详情页可以看到新闻内容都是在 div标签里面 p 标签内,按照正常的解析网站即可获取新闻内容。
保存方式
1、你可以保存txt文本形式
2、也可以保存成PDF形式
之前也讲过关于爬取文章内容保存成 PDF ,可以点击下方链接查看相关保存方式。
本篇文章的话,就使用保存txt文本的形式吧。
-
在栏目列表页中,点击更多新闻内容,获取接口数据url
-
接口数据url中返回的数据内容中匹配新闻详情页url
-
使用常规解析网站操作