R语言 rvest包进行网页信息抓取（IMDB上2018年度最流行的50部故事片）

本文链接：https://blog.csdn.net/qq_41806518/article/details/81539041

本文介绍了如何使用R语言的rvest包来抓取IMDB网站上2018年最流行的50部故事片的相关信息，包括排名、标题、描述、放映时长、电影类型和评分。通过html_nodes和html_text等函数进行网页元素的选择和内容提取，对缺失信息的部分使用NA填充。

摘要由CSDN通过智能技术生成

我们在对网页进行数据抓取的时候，除了可以运用Xpath对我们需要的信息进行寻找与抓取，还可以运用R语言中的rvest包进行网页信息抓取。
我们先来对rvest包中的一些函数进行简单的认识：
1. html_attr(” “) ：从html_nodes()筛选出的标签中，查找””属性的值。
2. gsub()：字符串查找替换的函数，pattern是指定用来查找的正则表达式。
3. html_nodes(“p.productTitle>a[title]”)：”>”指定的筛选条件的父级标签。
4. html_text()：只抓取<标签>内容< /标签> 中的内容部分
接下来，我们用”rvest”来爬取IMDB上2018年度最流行的50部故事片中的部分信息，并将爬去的信息放入到数据框中。
一.安装并加载”rvest”包。
# 加载包
install.packages(“rvest”)
library(‘rvest’)
二.解析网页
确定IMDB中关于2018年最流行的50部故事片相应的网址，对它进行解析。

**# 指定网址**
url <- 'https://www.imdb.com/search/title?%20count=
100&release_date=2018,2018&title_type=feature'
**#读取html**
webpage <- read_html(url)

三.获取数据
排名：使用html_nodes(” “)用来找到class中以text-primary结尾的语句，一共五十条；再用html_text()抓取选中语句中标签的内容部分，最后转化成数值型。

**#获取排名部分**
rank_data_html <- html_nodes(webpage,'.text-primary')
**#排名转换为文本**
rank_data <- html_text(rank_data_html)
**#排名转换为数值型**
rank_data<-as.numeric(rank_data)

标题：使用html_nodes(” “)用来找到class中以.lister-item-header a结尾的语句，一共五十条；再用html_text()抓取选中语句中标签的内容部分。

**# 标题**
title_data_html <- html_nodes(webpage,