详细代码见:http://download.csdn.net/download/vinsuan1993/10258596
一、需求说明
我们通过上一篇博客(http://blog.csdn.net/c406495762/article/details/78123502#t10)可以获取到具体某个新闻的URL,当我们点击进去,就可以看到该新闻的内文。在这里,我们需要抓取新闻内文的标题、发布时间、来源、正文、编辑者、评论数等。
二、代码范例
2.1 抓取新闻内文页面
代码:
2.2 抓取新闻内文标题
代码:
2.3 取得新闻发布时间和来源信息
代码:
注:时间和日期之间有空格;便于批量处理对于来源的撷取,我们选择“.source”。
2.4 整理新闻正文
注:两种写法。
2.5 撷取新闻编辑者名称