R语言中rvest包爬虫代码+示例讲解（爬取当当网）

最新推荐文章于 2024-05-01 02:30:22 发布

changhaiyisheng520

最新推荐文章于 2024-05-01 02:30:22 发布

阅读量3.2k

点赞数 3

文章标签： r语言爬虫程序人生

本文链接：https://blog.csdn.net/changhaiyisheng520/article/details/114745981

版权

R语言中rvest包爬虫代码+讲解

rvest包
- 确定节点
- R爬虫示例：爬取当当网销量数据

rvest包

R语言中有许多用于爬取数据的包，本篇文章主要讲解rvest包的使用。首先讲解rvest包中的主要函数。
1.read_html()：用于读取html（文档）的函数；
2.html_nodes()：用于选取文档中指定的元素、节点的部分；
3.html_text()：用于提取标签中的文本；
4.html_attrs()：用于提取属性名称及其内容。

使用rvest包爬取数据简单易懂，本篇文章详解了节点确认并用示例加深印象，非常适合爬虫小白入手。

确定节点

用rvest包对网页数据进行爬取时，爬取的难点及重点都是如何确认html_nodes函数中的节点参数，为节省爬取数据的时间和精力，我们应该借助强大的谷歌插件CSS生成器——Selectorgadget插件，它有助于我们快速找到html的节点信息，所以本篇文章会详细讲解如何准确确认节点。
1.工具：Selectorgadget插件

2.下载方式：可参照我上一篇博客，直接下载，压缩包内附有安装步骤

3.使用方式：

（1）打开一个网页，如dangdang
（2）开启SelectorGadget（点击一个放大镜图案的按钮即可）;
移动鼠标箭头到一个页面元素上并单击，该页面元素会变成绿色，SelectorGadget的文本框内显示出被选中页面元素的css path类型的定位字符串。“clear”按钮可以清空定位字符串，“clear”按钮中的数字是指定位字符串可以匹配的页面元素个数，其它具有相同定位字符串的页面元素都将变为黄色。单击这些黄色的页面元素，这些元素变为红色，表示剔除它们，用这种方式不断改变定位字符串，最终生成被选中元素的特有的定位字符串。

在这里插入图片描述

R爬虫示例：爬取当当网销量数据

运用R语言爬取当当网的销量排行等信息，并把数据保存在E盘csv文件中。

```#爬取当当网数据,成功自己实现
library(rvest)
library(stringr

最低0.47元/天解锁文章

changhaiyisheng520

关注

3
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
2
评论
R语言中rvest包爬虫代码+示例讲解（爬取当当网）

R语言中rvest包爬虫代码+讲解rvest包确定节点R爬虫示例：爬取当当网销量数据rvest包R语言中有许多用于爬取数据的包，本篇文章主要讲解rvest包的使用。首先讲解rvest包中的主要函数。1.read_html()：用于读取html（文档）的函数；2.html_nodes()：用于选取文档中指定的元素、节点的部分；3.html_text()：用于提取标签中的文本；4.html_attrs()：用于提取属性名称及其内容。使用rvest包爬取数据简单易懂，本篇文章详解了节点确认并用示例将
复制链接

扫一扫