爬取腾讯视频网站数据

1 数据获取

腾讯视频的网站中隐含的是一个非结构化的数据。R语言的“XML”包中htmlParse和getNodeSet非常强大,通过htmlParse可以抓取页面数据并形成树状结构,getNodeSet可以对抓取的数据根据XPath语法来选取特定的节点集合。“revst”包的html_nodes与html_attr可以分别获得节点和属性。
下面是爬取腾讯视频网站中电影数据的一部分关键代码:

1.1加载一些包

library(rvest)
library(XML)
library(dplyr)

1.2 读取页面

腾讯视频中热门电影的显示情况为每页显示30条数据,据此设置要爬取的每个网页的URL依次访问,read_html函数读取网页信息。

num = seq(from=0,by</
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值