R语言利用rvest包爬虫,主要用到函数:read_html()、html_nodes()、html_text()和html_attrs()。
安装这个包:install.packages('rvest')
read_html():下载网页;
html_nodes():获得指定名称的网页元素、节点;
html_text():获得指定名称的网页元素、节点里面的文本;
html_attrs():获得指定的网址;
以新浪内地新闻为例
下面是新浪内地新闻网址:http://news.sina.com.cn/china/
我们想要爬取每条新闻的标题、时间和对应的链接,因为点击标题,会触发链接,进入每条新闻内容页。
载入rvest包这一页网址为:下载这一页全部网页元素鼠标右键==》"审查元素",可以看到这些信息所位于的网页标签,如下:定位到链接<a>标签
获得链接文本(也就是新闻标题)获得新闻时间为了便于对照查看,图再放一次:
获得链接保存为csv文件
最终所有程序代码如下:
点击阅读原文有惊喜!