R语言 rvest包进行网页信息抓取(IMDB上2018年度最流行的50部故事片)

本文介绍了如何使用R语言的rvest包来抓取IMDB网站上2018年最流行的50部故事片的相关信息,包括排名、标题、描述、放映时长、电影类型和评分。通过html_nodes和html_text等函数进行网页元素的选择和内容提取,对缺失信息的部分使用NA填充。
摘要由CSDN通过智能技术生成

我们在对网页进行数据抓取的时候,除了可以运用Xpath对我们需要的信息进行寻找与抓取,还可以运用R语言中的rvest包进行网页信息抓取。
我们先来对rvest包中的一些函数进行简单的认识:
1. html_attr(” “) :从html_nodes()筛选出的标签中,查找””属性的值。
2. gsub():字符串查找替换的函数,pattern是指定用来查找的正则表达式。
3. html_nodes(“p.productTitle>a[title]”):”>”指定的筛选条件的父级标签。
4. html_text():只抓取<标签>内容< /标签> 中的内容部分
接下来,我们用”rvest”来爬取IMDB上2018年度最流行的50部故事片中的部分信息,并将爬去的信息放入到数据框中。
一.安装并加载”rvest”包。
# 加载包
install.packages(“rvest”)
library(‘rvest’)
二.解析网页
确定IMDB中关于2018年最流行的50部故事片相应的网址,对它进行解析。

**# 指定网址**
url <- 'https://www.imdb.com/search/title?%20count=
100&release_date=2018,2018&title_type=feature'
**#读取html**
webpage <- read_html(url)

三.获取数据
排名:使用html_nodes(” “)用来找到class中以text-primary结尾的语句,一共五十条;再用html_text()抓取选中语句中标签的内容部分,最后转化成数值型。

**#获取排名部分**
rank_data_html <- html_nodes(webpage,'.text-primary')
**#排名转换为文本**
rank_data <- html_text(rank_data_html)
**#排名转换为数值型**
rank_data<-as.numeric(rank_data)

标题:使用html_nodes(” “)用来找到class中以.lister-item-header a结尾的语句,一共五十条;再用html_text()抓取选中语句中标签的内容部分。

**# 标题**
title_data_html <- html_nodes(webpage,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值