【crawler笔记】R语言简单动态网页爬虫（rvest包）示例

最新推荐文章于 2024-07-29 15:11:22 发布

seeyouer1205

最新推荐文章于 2024-07-29 15:11:22 发布

阅读量2.9k

点赞数 2

分类专栏： R语言爬虫文章标签： r语言爬虫 github 数据挖掘

本文链接：https://blog.csdn.net/seeyouer1205/article/details/117218645

版权

本文介绍了如何使用R语言的rvest包来爬取动态网页，以https://www.thepaper.cn/为例，详细解析了爬虫目标、代码分析及报错修改过程。在爬取过程中，作者遇到并解决了获取新闻标题、内容和时间的挑战，最终成功实现了爬虫。

摘要由CSDN通过智能技术生成

1、爬虫目标

大家普遍认为Python的爬虫功能强大，但在解决动态加载或者登陆网站时，Python存在一定困难的，相对于一些普通爬虫，使用R语言会更方便。

以https://www.thepaper.cn/为例，爬取首页的新闻（标题、内容、时间），主要采用的是动态网页中常用的httr包。

初始学习时，参考了B站《20分钟入门基于R语言的网络爬虫_哔哩哔哩 (゜-゜)つロ干杯~-bilibili》的视频，但代码运行出现了报错，所以在原代码上做了修改。

2、代码分析及报错修改

library(rvest)
library(stringr)

url <-"https://www.thepaper.cn/"
web <- read_html(url)    #读取html网页的函数

news <- web %>% html_nodes('h2 a')
title <- news %>% html_text()  #获取其中的文字部分
link <- news %>% html_attrs()  #获取每个标题对应的网址

link1 <- c(1:length(link))
for(i in 1:length(link1))
{
  link1[i]<- link[[i]][1]
}
link2 <- paste("https://www.thepaper.cn/",link1,sep="")

##获得每条

最低0.47元/天解锁文章

seeyouer1205

关注

2
点赞
踩
25

收藏

觉得还不错? 一键收藏
3
评论
【crawler笔记】R语言简单动态网页爬虫（rvest包）示例

1、爬虫目标大家普遍认为Python的爬虫功能强大，但在解决动态加载或者登陆网站时，Python存在一定困难的，相对于一些普通爬虫，使用R语言会更方便。以https://www.thepaper.cn/为例，爬取首页的新闻（标题、内容、时间），主要采用的是动态网页中常用的httr包。初始学习时，参考了B站《20分钟入门基于R语言的网络爬虫_哔哩哔哩 (゜-゜)つロ干杯~-bilibili》的视频，但代码运行出现了报错，所以在原代码上做了修改。2、代码分析及报错修改library(rv
复制链接

扫一扫