Rcurl小应用，爬取京东评论

最新推荐文章于 2022-12-12 20:23:46 发布

置顶

黄同学12

最新推荐文章于 2022-12-12 20:23:46 发布

阅读量4.2k

点赞数 2

分类专栏： R 文章标签： Rcurl R 爬虫

本文链接：https://blog.csdn.net/qq_25684755/article/details/46389667

版权

本文介绍了一个利用Rcurl包实现的简单爬虫，该爬虫目标是抓取京东平台上电热水器产品的用户评论数据，展示了如何通过R语言进行网络数据获取。

摘要由CSDN通过智能技术生成

利用Rcurl包做的一个小爬虫，爬取了京东上电热水器的评论

<span style="font-family: Arial, Helvetica, sans-serif;">#利用Rcurl抓取京东页面上电热水器的评论</span>

library(RCurl)
library(XML)
library(plyr)


#要爬取数据的(京东)网址，共有56页
page <- 1:56
urlist <- paste("http://club.jd.com/allconsultations/1121567-",page,"-1.html",sep="")

#伪造请求报头
myheader=c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
           "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
           "Accept-Language"="en-us",
           "Connection"="keep-alive",
           "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"
)



#下载网址
webpage = getURL(urlist,httpheader=myheader,.encoding='utf-8')
#解析xml文