R语言中rvest包爬虫代码+示例讲解(爬取当当网)

R语言中rvest包爬虫代码+讲解

rvest包

R语言中有许多用于爬取数据的包,本篇文章主要讲解rvest包的使用。首先讲解rvest包中的主要函数。
1.read_html():用于读取html(文档)的函数;
2.html_nodes():用于选取文档中指定的元素、节点的部分;
3.html_text():用于提取标签中的文本;
4.html_attrs():用于提取属性名称及其内容。

使用rvest包爬取数据简单易懂,本篇文章详解了节点确认并用示例加深印象,非常适合爬虫小白入手。

确定节点

用rvest包对网页数据进行爬取时,爬取的难点及重点都是如何确认html_nodes函数中的节点参数,为节省爬取数据的时间和精力,我们应该借助强大的谷歌插件CSS生成器——Selectorgadget插件,它有助于我们快速找到html的节点信息,所以本篇文章会详细讲解如何准确确认节点。
1.工具:Selectorgadget插件

2.下载方式:可参照我上一篇博客,直接下载,压缩包内附有安装步骤

3.使用方式:

(1)打开一个网页,如dangdang
(2)开启SelectorGadget(点击一个放大镜图案的按钮即可);
移动鼠标箭头到一个页面元素上并单击,该页面元素会变成绿色,SelectorGadget的文本框内显示出被选中页面元素的css path类型的定位字符串。“clear”按钮可以清空定位字符串,“clear”按钮中的数字是指定位字符串可以匹配的页面元素个数,其它具有相同定位字符串的页面元素都将变为黄色。单击这些黄色的页面元素,这些元素变为红色,表示剔除它们,用这种方式不断改变定位字符串,最终生成被选中元素的特有的定位字符串。

在这里插入图片描述

R爬虫示例:爬取当当网销量数据

运用R语言爬取当当网的销量排行等信息,并把数据保存在E盘csv文件中。

```#爬取当当网数据,成功自己实现
library(rvest)
library(stringr
  • 3
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

changhaiyisheng520

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值