最简单爬虫rvest_告别复制粘贴

最新推荐文章于 2023-12-27 13:58:31 发布

R语言中文社区

最新推荐文章于 2023-12-27 13:58:31 发布

阅读量2.4k

点赞数

本文链接：https://blog.csdn.net/kMD8d5R/article/details/89037572

版权

本文介绍了使用R包rvest进行网页爬取的基本操作，包括选择网页元素、提取文本和表格。以爬取豆瓣电影《流浪地球》的评论为例，展示如何分词并绘制词云图。此外，还提到了中文分词包jiebaR的使用，以及绘制词云的技巧。

摘要由CSDN通过智能技术生成

640?wx_fmt=png

作者：李誉辉

四川大学在读研究生

简介：
rvest是Hadley大神开发的包，使用非常简单，不需要懂得太多的HTML和CSS知识，
当然对于反爬虫的web，基本上就力不从心了，这种情况还是使用Python吧，毕竟术业有专攻。
首先安装 SelectorGadget

（https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb）,这个插件很方便，可以获得网页中某些部分的相关tags。
如果不懂HTML和CSS，最好安装，如果懂，还是用Python吧。

常用函数：

read_html(), 读取html文档或链接，可以是url链接，也可以是本地的html文件，
甚至是包含html的字符串。
html_nodes(), 选择提取文档中指定元素的部分。
支持css路径选择, 或xpath路径选择。
如果tags层数较多，必须使用selectorGadget复制准确的路径。
使用方式：开启SelectorGadget,然后鼠标选中位置，右击选择检查元素，光标移动到tags上。
然后选择copy,选择selector或xpath 选项。
html_text(),提取tags内文本，
html_table(), 提前tags内表格。
html_form(), set_values(), 和submit_form()分别表示提取、修改和提交表单。

1.文本提取

我们以 boss直聘

https://www.zhipin.com/?ka=header-home-logo，网站为例进行演示。首先在搜索框内输入“数据分析”进行搜索,范围选择全国，可以打开如下页面：

640?wx_fmt=png

然后我们单击Selector Gadget插件按钮以开启该功能，再次点击可关闭。
单击后，鼠标指针悬浮于web上任意的tags元素，都会出现黄色的高亮框。如下图所示：

640?wx_fmt=gif

选中需要的元素后，右击，然后“检查”就能打开源代码并定位到该元素，如下图：

640?wx_fmt=png

通过浏览器，发现左侧的岗位tags为.info-primary .name,公司名称为.info-company .name。
其中的句点.表示类对象，多级类对象用空格隔开。

640?wx_fmt=gif

然后用read_html()打开该web。

 1library(rvest)
 2library(magrittr)
 3
 4# 打开网页
 5site_1 <- "https://www.zhipin.com/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&scity=100010000&industry=&position="
 6web_1 <- read_html(x = site_1)  
 7
 8tag_job <- ".info-primary .name .job-title" # 岗位名字
 9tag_rev <- ".info-primary .name .red"  # 薪水
10tag_com <- ".info-company .company-text .name" # 公司名字
11
12# 开始抓取
13job_1 <- html_nodes(x = web_1, css = tag_job)
14rev_1 <- html_nodes(x = web_1, css = tag_rev)
15com_1 <- html_nodes(x = web_1, css = tag_com)
16
17# 从tags中提取文本内容
18job_1 %<>% html_text()
19rev_1 %<>% html_text()
20com_1 %<>% html_text()
21
22# 合并向量为数据框
23job_com <- data.frame(job = job_1,
24                      revenue = rev_1,
25                      company = com_1,
26                      stringsAsFactors = FALSE)
27head(job_com)
28rm(site_1, web_1, job_1, com_1)