R语言爬虫-RCurl和XML学习笔记

最新推荐文章于 2024-09-08 09:00:00 发布

置顶

人若有知配百年

最新推荐文章于 2024-09-08 09:00:00 发布

阅读量1w

点赞数 7

分类专栏：编程语言文章标签： r语言爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37511879/article/details/55045412

版权

本文介绍了使用R语言进行网络爬虫的方法，重点是RCurl和XML包的应用。通过实例展示了如何爬取半次元网站的萌妹子图片，以及如何处理和下载这些图片。同时，还提供了豆瓣相册爬虫的代码，演示了如何更改相册地址以爬取不同相册的照片。

摘要由CSDN通过智能技术生成

欢迎访问我的独立网站：编程小屋

以前就很喜欢爬虫，一段代码可以去搜集网络上的资源，总觉得是很厉害的事情，因为专业的原因，自身比较熟练R语言，但是Python并不熟悉，所以便查找了网上关于R语言爬虫的文章，在此做一个总结。以便自己随时复习。

首先，提到R语言爬虫，不得不提到两大利器RCurl和XML包，通过这两个包会发现爬虫怎么那么容易哈，本文不会讲原理乱七八糟的，而是最实用的的函数和方法，你只需要会R最基本的操作，就能阅读本文的内容。

首先安装这两个函数包并加载

install.packages("RCurl")
install.packages("XML")
library(RCurl)
library(XML)

本文将对半次元的网站http://bcy.net/coser/detail/48126/1026772进行萌妹子图片的爬取

首先，需要把网页爬下来，这一点就需要用到一个利器，getURL(url)函数，url便是你要爬去的网站的网址，直接百度复制就好了（如果你要爬多个网址，研究一下url写个循环就可以啦）

url<-"http://bcy.net/coser/detail/48126/1026772"
web<-getURL(url)

接下来要对爬取得网页进行处理，生成标准的HTML树形结构，方便利用XML里面的函数进行处理

doc<-htmlTreeParse(web,encoding="UTF-8", error=function(...){}, useInternalNodes = TRUE,trim=TRUE)

接下来就是最重点的部分了，节点定位，此时建议去你需要读取的网页，浏览器右键读取源代码，找到我们需要的资源所在的标签如下。

<div class="post__content js-content-img-wrap js-fullimg

最低0.47元/天解锁文章

人若有知配百年

关注

7
点赞
踩
43

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。