Python爬虫教程,采集bilibili弹幕并生成词云

本文介绍了如何使用Python爬取Bilibili的弹幕数据,并通过BeautifulSoup解析XML文件,利用jieba分词后生成词云。以TES vs SN第四场决胜局为例,详细阐述了寻找弹幕数据源、去除标点符号和空格的步骤,最后展示了词云效果。
摘要由CSDN通过智能技术生成

Python爬取bilibili弹幕并生成词云

目标网站:
我这里以 TES vs SN 第四场决胜局为例:

探索经历:

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:623406465

首先我们要找到我们想要爬取的弹幕都发在哪:
我们先播放这个视频,随便记住一条弹幕,到审查元素里面搜索


哎,可以找到,然后我们再查看一下网页的源代码,没有搜索结果。。。。。。这说明bilibili的弹幕是动态加载的,是js请求的数据,可能是json,也可能是XML

通常我们都会通过翻页等操作让网页进行js请求,我们在“后台”盯着,看有没有多出来的文件,依次翻看一下里面的东西,看看有没有存放弹幕的文件,于是我继续播放视频,列表里也确实多了很多文件

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值