R语言中rvest包爬虫代码+讲解
rvest包
R语言中有许多用于爬取数据的包,本篇文章主要讲解rvest包的使用。首先讲解rvest包中的主要函数。
1.read_html():用于读取html(文档)的函数;
2.html_nodes():用于选取文档中指定的元素、节点的部分;
3.html_text():用于提取标签中的文本;
4.html_attrs():用于提取属性名称及其内容。
使用rvest包爬取数据简单易懂,本篇文章详解了节点确认并用示例加深印象,非常适合爬虫小白入手。
确定节点
用rvest包对网页数据进行爬取时,爬取的难点及重点都是如何确认html_nodes函数中的节点参数,为节省爬取数据的时间和精力,我们应该借助强大的谷歌插件CSS生成器——Selectorgadget插件,它有助于我们快速找到html的节点信息,所以本篇文章会详细讲解如何准确确认节点。
1.工具:Selectorgadget插件
2.下载方式:可参照我上一篇博客,直接下载,压缩包内附有安装步骤
3.使用方式:
(1)打开一个网页,如dangdang
(2)开启SelectorGadget(点击一个放大镜图案的按钮即可);
移动鼠标箭头到一个页面元素上并单击,该页面元素会变成绿色,SelectorGadget的文本框内显示出被选中页面元素的css path类型的定位字符串。“clear”按钮可以清空定位字符串,“clear”按钮中的数字是指定位字符串可以匹配的页面元素个数,其它具有相同定位字符串的页面元素都将变为黄色。单击这些黄色的页面元素,这些元素变为红色,表示剔除它们,用这种方式不断改变定位字符串,最终生成被选中元素的特有的定位字符串。
R爬虫示例:爬取当当网销量数据
运用R语言爬取当当网的销量排行等信息,并把数据保存在E盘csv文件中。
```#爬取当当网数据,成功自己实现
library(rvest)
library(stringr