pyshon根据id更换爬取网页_Python爬虫试手-视频网站弹幕爬取

ecc30d64794c0746bb6552afddc6dadc.png

在网上参考了很多爬虫代码,终于试手成功,爬取的弹幕来源于腾讯视频网站的电视剧《都挺好》


导入库函数

import 

页面基本信息解析,获取构成弹幕网址所需的后缀ID、播放量、集数等信息。

def 

传入后缀ID,获取该集的target_id并返回

def 

解析单个弹幕页面,需传入target_id,v_id(后缀ID)和集数(方便匹配),返回具体的弹幕信息

def 

构造单集弹幕的循环网页,传入target_id和后缀ID(v_id),通过设置爬取页数来改变timestamp的值完成翻页操作

def 

def 

输入包含v_id,target_id的表,并传入想要爬取多少集

def 

入口函数

if 

正在努力爬取第 1 集的target_id
正在努力爬取第 2 集的target_id
正在努力爬取第 3 集的target_id
正在努力爬取第 4 集的target_id
正在努力爬取第 5 集的target_id
正在努力爬取第 6 集的target_id
正在努力爬取第 7 集的target_id
正在努力爬取第 8 集的target_id
正在努力爬取第 9 集的target_id

......

正在努力爬取第 45 集的target_id
正在努力爬取第 46 集的target_id
正在努力爬取第 47 集的target_id

这是 1 集的第 1 页爬取..
这是 1 集的第 2 页爬取..
这是 1 集的第 3 页爬取..
这是 1 集的第 4 页爬取..
这是 1 集的第 5 页爬取..
-------------------------------------


824beae27a652a850fccd20f8eb205e8.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值