R语言对豆瓣电影top250进行分析

最新推荐文章于 2024-06-30 16:15:25 发布

WandaWang0822

最新推荐文章于 2024-06-30 16:15:25 发布

阅读量4.9k

点赞数 2

分类专栏： R 爬虫文章标签： R

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/never0822/article/details/80926246

版权

本文介绍了如何使用R语言爬取并分析豆瓣电影top250的数据，包括提取电影名称、发行年份、评分和评论人数。通过示例代码展示了如何处理网页内容，提取所需信息，并对数据进行简单整理。

摘要由CSDN通过智能技术生成

我们这学期开设了数据采集课程，完全建立在R软件基础之上。在搜索相关资料过程中，发现关于R爬取的东西特别少，把提取部分分享到博客中希望可以帮助有缘人。

library(stringr)

library(RCurl)

library(XML)

在这里找到豆瓣电影所对应的链接https://movie.douban.com/top250?&filter=，打开这个链接我们可以看到排行前25名的电影信息，top250的电影信息以同样的形式分布在10页上。

（1）提取一页的电影信息

在这里，我们以第一页为例，提取所需要的内容，首先是用readLines()函数读取整个网页。

url<-https://movie.douban.com/top250?&filter=

web<-readLines(url,encoding="UTF-8")

查看源代码我们可以知道，电影名字在标签<span class="title">…</span>中，用str_extract_all()函数进行筛选并把内容展开，程序如下：

name<- str_extract_all(string = web, pattern = '<spanclass="title">.+</span>')

movie.names_line<- unlist(name)

查看movie.names_line可以得到：

结果并不是太完美，接下来用正则表达式进行提取，并且删除空缺NA值，程序如下：

movie.names<- str_extract(string = movie.names_line, pattern =">[^&].+<") %>%

str_replace_all(string = ., pattern =">|<",replacement = "")

movie.names<- na.omit(movie.names)

这时候再次查看movie.names

[1] "肖申克的救赎" "霸王别姬" "这个杀手不太冷"

[4] "阿甘正传" "美丽人生" "千与千寻"

[7] "泰坦尼克号" "辛德勒的名单" "盗梦空间"

[10]"机器人总动员" "三傻大闹宝莱坞" "海上钢琴师"

[13]"忠犬八公的故事" "放牛班的春天" "大话西游之大圣娶亲"

[16]"楚门的世界" "龙猫" "教

最低0.47元/天解锁文章

关注

2
点赞
踩
47

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。