一、爬取目的:
爬取数据用于论文-大数据背景下我国电影票房预测研究
数据来源:http://www.cbooo.cn/
二、思路解析:
- 爬取首页 电影名称+ID
- 拼接 http://www.cbooo.cn/m/ + ID 获取电影详情页
library(tidyverse)
library(httr)
library(jsonlite)
library(rlist)
library(plyr)
##tidyverse:包含R语言常用的8个包,合集
##httr:相当于py的Request库,
#获取总览页
yien_data <- data.frame()
for (i in 1:395){
url <- paste('http://www.cbooo.cn/Mdata/getMdata_movie?area=50&type=0&year=0&initial=%E5%85%A8%E9%83%A8&pIndex=',i,seq='')
Sys.sleep(0.5)
response <- GET(url, user_agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36")
result <- fromJSON(content(response,as="