zuul取不到request_全网最简单的爬取B站弹幕教程

全网最简单的爬取B站弹幕教程

因为我本人很菜

\ 网新学子干巴爹 /

bb0dc869c29b655077d11bfa226f3b49.png

步骤如下:

抓包--找到弹幕的存在地--爬取网页--利用jieba进行分词-- 进行词云制作

(以这个视频为例子一https://www.bilibili.com/video/BV1up4y197Ac?from=search&seid=16556469906723796301)

01

找到B站的弹幕存放地

如果你直接去request.get这个网址,会发现里面是找不到弹幕的,那么我们思考和查证一下,不妨推断弹幕和视频应该是异步加载数据,为什么这么说呢,一个视频的弹幕会有多少,就算考虑到B站的弹幕池会一定时间清理的因素,还是很多。

如果弹幕和视频一起加载的话,页面会变得很慢,所以B站的弹幕应该是先加载当前视频的页面,再异步填充弹幕。

经过在csdn中冲浪可以找到,B站的弹幕的存放地址应“http://comment.bilibili.com/+cid+.xml”

下一步就是找到cid就可以了。

02

找到cid

在谷歌浏览器中右键查找源代码,在页面加载的包里面,找到一个叫做heartbeat的包。

aid是视频的av号,bid视频的bv号,av号和bv号对应视频的地址,cid是弹幕的对应id

2989a5c7082e8d7ee6853931aa807ae8.png

03

爬取页面信息

我们把这一页爬下来,拿到内容之后我们开始解析弹幕内容,采用正则表达式进行分词,接下来将其写入csv文件。

d4c3725cb74d3904d4b65c2c37aeb011.png 1f25c51a03566b60f9366c25c1ef4c0b.png 56c1b6fce99d813c5a5d69125651cd05.png

04

完善操作

利用jijeba和wordcloud进行分词和词云制作,(作词云的时候设置参数以及注意的是文件的路径要看有没有变。

afd681da51a7d867ceb19132884d65ad.png 0cfea01cd752dfb9cc530eebdfff642f.gif

成果图:大概是师太看了会骂人的美工23333

b5955e83f23758e227cbe67648456943.png

///

以上,

最近感觉自己

无论在做什么

都头脑空空,

这种感觉真是太可怕了

究其原因是输入太少了。

记录一下想法

和产出尝试,

成长 == 输入+思考+输出

“晚安"

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值