python爬取b站弹幕分析_如何爬取b站弹幕文件

本文讲述了如何使用Python开发者工具分析网页结构,发现并抓取滚动播放的弹幕文件(通常为XML格式),介绍了正则表达式和直接抓取网页两种方法,强调了urllib2和BeautifulSoup的健壮性。作者还分享了一段Python代码示例,用于抓取弹幕文本并保存。最后,推荐了一个社会科学研究方法暑期研修班的活动信息。
摘要由CSDN通过智能技术生成

我们知道编写一个爬虫之前最重要的是进行网页结构的分析,确定你要抓取的部分是属于网页结构的哪一部分。以“你绝对没听过的梁朝伟唱歌 一开口就苏了 可惜被梁家辉开腔了”为例子,打开谷歌浏览器的开发者工具,分析网页结构。

我们会发现,弹幕列表一栏对应的网页结构并不是我们想抓取的弹幕文件,那么弹幕文件在哪那?很简单,由于弹幕是滚动播放的,所以有一个快速找到弹幕文件的方法。在开发者工具中点击network。

重新加载页面(一定要刷新一下),在搜索里输入xml(弹幕一般为xml文件)

在新的窗口将其打开,来看看到底是不是我们要找的弹幕文件

确实是,分析一下这个弹幕文件的网址,图中框起来的是视频的cid号,并不是av番号。所以有两种抓取方式,一种是用正则表达式匹配cid,一种是直接抓取整个网页的方式。

我确实尝试了两种方式,正则表达式是借鉴别人的,但是代码只能用运行两次,就会被封号(因为这种方法要写代理)。我就自己写了一个直接抓取网页的代码,比较简单也没有风险,唯一麻烦的是爬取弹幕之前要先查找出cid。这就再次说明了,在写爬虫的时候urllib2和BeautifulSoup的方式要比正则表达式更健壮。下面直接上代码(python3.6环境,抓取弹幕文本并将其写入名为text30的文件中)

今天的分享就是这些了,下次将继续分享利用python进行数据分析和制作词云!比心

以人文之情怀

以学术为志业

···········

2018年最值得期待的活动:

三位教育部青年长江学者领衔,邀你深度研修社会科学研究方法,2018前沿社会科学研究方法暑期高级研修班(点击)正在火热报名中,按照报名顺序优先安排座位哦!

扫码报名

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值