用Python把B站视频弹幕爬下来，绘制词云图看看大家最关心什么！

最新推荐文章于 2022-03-28 17:28:55 发布

轻松学Python

最新推荐文章于 2022-03-28 17:28:55 发布

阅读量3.5k

点赞数 23

分类专栏： python 文章标签： Python 爬虫编程语言

本文链接：https://blog.csdn.net/ooowwq/article/details/119211907

版权

本文介绍如何使用Python爬取B站热门视频弹幕并生成词云图，探讨爬虫的基本操作，包括安装模块、发送请求、处理响应以及制作词云图。同时强调爬虫的合法合规使用，避免触及隐私和法律红线。

摘要由CSDN通过智能技术生成

今天带大家做点好玩的，把B站热门视频弹幕爬下来制作词云图！
康康大家都怎么说！

在这里插入图片描述
开始之前先给大家啰嗦几句，可能有些兄弟不会安装模块，我大概讲一下。

如何安装模块:

win(键盘左下角ctrl 和 Alt 中间那个键) + R 输入 cmd 输入安装命令： pip install 模块名回车
pycharm里面安装 terminal 输入安装命令： pip install 模块名回车

如果模块安装失败了，可能是这些问题：

提示：pip 不是内部命令
你python环境变量可能没有设置好
有安装进度条显示，但是安装到一半出现报错了
因为python安装模块都是在国外的网址进行下载安装的，国内请求国外网速很慢，下载速度大概只有几KB
read time out 网络连接超时你可以切换为国内的镜像源
明明在cmd里面安装好了，但是在pycharm 提示我没有这个模块
你pycharm里面python解释器没有设置，你在pycharm设置里面重新设置一下
可能安装了多个python版本
安装一个版本即可

Python做爬虫到底可以做些什么呢？

常规: 爬取网上的数据 / 我可以批量下载图片/文字/音频视频…
12306抢票 / 京东商城电商网站抢购脚本 / 朋友圈刷票 / 一些问卷调查自动填写… / 文章刷阅读量 / 音频视频播放量
可以刷课可以刷网课自动还能自动批量注册账号
模拟点击 >>> 游戏辅助 >>> 修改游戏内存(单机) …
普通B站视频可以爬番剧是需要会员的

爬虫都是通过开发者工具进行抓包分析查询数据来源 ( 静态页面 / 动态页面 ajax异步加载)

1. 确定目标需求 (弹幕数据 那个视频弹幕)
    确定了
2. 找数据 (数据的来源分析)
    简简单单 找到了
3. 对于数据来源的url地址 发送请求 (请求方式 / 请求头)
    请求方式: get / post
    请求头: 
    https://api.bilibili.com/x/v1/dm/list.so?oid=376200196
    (通过开发者工具去看一下数据的具体来源,是否是来自有这个网站)
4. 获取数据 
    文本数据 response.text 获取网页源代码
    json字典数据 response.json() 通常一般情况是 动态网页  ajax异步加载 用的比较多
    二进制数据   response.content  保存图片 音频 视频 或者 特定格式文件 
5. 解析数据
    正则表达式 .*? 解决一切  遇事不决 .*? 通配符 可以匹配任意字符 
6. 保存数据

python除了做爬虫数据采集，还可以做什么?
兴趣学习还是通过python技术赚钱 (就业找工作 / 外包)

网站开发(就业/外包) >>> 我们课程是教授的全栈开发薪资 13K-15K
比如: python开发网站: Youtobe / 豆瓣 / 知乎(以前版本) / Facebook / 美团；
我可以做到这样么?
0基础初学者从零开始学习，上线通过域名服务器数据交互，4个左右的时间就可以独立开发这个项目类似知乎的网站；
如果你做去外包(团队): python开发就业大多数也是进入外包公司一个 10-20K左右；
爬虫开发(脚本)(就业/外包) 可见即可爬
虽然爬虫什么都可以爬，但是获取用户的个人隐私（信息电话身份贩卖）、国家信息、商业机密（未公开数据，或侵犯版权）、色情等违法信息用来盈利，就基本上人无了！
很多兄弟问我，可以帮我淘宝用户数据吗? 我都是告诉他们&