R网络爬虫介绍

最新推荐文章于 2024-09-27 07:51:12 发布

编程人生之路

最新推荐文章于 2024-09-27 07:51:12 发布

阅读量800

点赞数

分类专栏： R语言文章标签： R爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SDKLHKJAS/article/details/103275648

版权

本文介绍了R语言中的网络爬虫工具rvest，包括其基本使用方法、与Python爬虫的对比、主要函数的详细解释以及乱码处理和行为模拟。rvest以其简洁的语法和对数据处理的便利性，成为R用户爬虫首选。通过rvest，用户可以轻松地读取HTML文档、选择和提取网页元素，并进行数据清洗。同时，文章还提供了若干实用的R爬虫技巧。

摘要由CSDN通过智能技术生成

1、rvest介绍

网络爬虫是讲呈现在网页上以非结构格式（html）存储的数据转化为结构化数据的技术，该技术非常简单易用。

rvest是R用户使用率最多的爬虫包，它简洁的语法可以解决大部分的爬虫问题。

基本使用方法：

使用read_html读取网页；
通过CSS或Xpath获取所需要的节点并使用html_nodes读取节点内容；
结合stringr包对数据进行清理。

与Python的比较：

Python倾向于做大型爬虫，与R相比，语法相对复杂，因此Python爬虫的学习曲线会相对陡峭。
对于那些时间宝贵，又想从网上获取数据的初学者而言，用R做爬虫是最好的选择：
R语法相对直观，规则更加灵活；
对于数据量不大的用户来数（小于百万级），R也能够非常自如地处理；
先学习R爬虫，等熟悉爬虫的原理之后，在过渡到Python是很容易的。

rvest的项目主页：https://cran.r-project.org/web/packages/rvest/index.html

2、API介绍

读取与提取：

read_html( ) 读取html文档的函数
html_nodes( ) 选择提取文档中指定元素的部分
html_name( ) 提取标签名称；
html_text( ) 提取标签内的文本；
html_attr( ) 提取指定属性的内容；
html_attrs( ) 提取所有的属性名称及其内容；
html_table( ) 解析网页数据表的数据到R的数据框中；
html_form( ) 提取表单。

乱码处理：

guess_encoding( ) 用来探测文档的编码，方便我们在读入html文档时设置正确的编码格式
repair_encoding( ) 用来修复html文档读入后的乱码问题

行为模拟：

set_values( ) 修改表单
submit_form( ) 提交表单
html_se

最低0.47元/天解锁文章

编程人生之路

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

编程人生之路 CSDN认证博客专家 CSDN认证企业博客

码龄7年

87: 原创

6万+: 周排名

80万+: 总排名

12万+: 访问

: 等级

1839: 积分

16: 粉丝

45: 获赞

17: 评论

272: 收藏

私信

关注

分类专栏

最新评论

crontab每小时运行一次
勤奋的考拉: 学习了，刚才就写成* */1 * * * ，把空间都搞没了
linux使用--根目录空间不足，把home下追加空间到根目录下
weixin_58699789: 博主，你好，我想请问一下，我的home目录有很多项目在运行，如果删除之后再挂载，这些项目会不会自动运行，还有，如果我要给root增加几个T的空间，命令里是1000G还是1T
EXCEL有三列数，其中两列相同的数值对齐，第三列跟随移动 (类似数据库update)
m0_66957674: 可以详细点吗？
crontab每小时运行一次
ctotalk: thanks very good
JavaWeb的技术体系
菜鸟歪歪歪: 你是尚硅谷毕业的吧，复制文档？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。