Python爬取B站不讲武德、耗子尾汁出处的视频弹幕

最新推荐文章于 2024-08-23 16:53:34 发布

Python_sn

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量593

点赞数

文章标签： python Python爬虫网络爬虫 Python编程编程语言

本文链接：https://blog.csdn.net/Python_sn/article/details/110429484

版权

前言

耗子喂汁是什么意思什么梗呢？可能很多人不知道，这个梗是出自马保国，经常上网的人可能听说过这个名字，而他所说的一些话也被当成了一些梗，比如年轻人不讲武德，闪电五连鞭等等

B站马保国的一段视频中他右眼红肿金句频出，部分经典句式甚至被网友们总结归纳成了“保国体”，变成了口头禅，比如“年轻人不讲武德，欺侮我六十九岁的老同志”“耗子尾汁”（好自为之）等

那么让我们来看看网友们大都发了啥弹幕

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤
QQ群：704929215

项目目标

爬取B站弹幕，词云图显示

第一个视频播放量快2000W了，弹幕也有4.8W

每天一遍，快乐源泉，嘿嘿嘿

环境

Python3.6

pycharm

爬虫代码

导入工具

import requests
import parsel
import csv
import time

先按F12，找到弹幕的数据在哪

从列表页中获取详情页的URL地址等数据

for page in range(20,32):
    time.sleep(1)
    print('=================正在下载11月{}日弹幕===================================='.format(page))
    url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=140610898&date=2020-11-{}'.format(page)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
        "cookie": "__uuid=1896D3F7-4A98-54EB-F7FA-3301CE9EF5F307776infoc; buvid3=B68B2187-4C3E-4466-A896-FBF9B292099B190963infoc; LIVE_BUVID=AUTO4115757254257055; stardustvideo=1; rpdid=|(umu|ulY)JJ0J'ul~l~klRJ); sid=8cq4r229; im_notify_type_65901796=0; laboratory=1-1; DedeUserID=523606542; DedeUserID__ckMd5=909861ec223d26d8; blackside_state=1; CURRENT_FNVAL=80; SESSDATA=a976c0b4%2C1618637313%2C4d792*a1; bili_jct=7f54729ec20660f750661122b80746d2; PVID=1; bp_video_offset_523606542=458111639975213216; CURRENT_QUALITY=16; bfe_id=1e33d9ad1cb29251013800c68af42315"
    }
    response = requests.get(url=url, headers=headers)
    response.encoding = response.apparent_encoding
    selector = parsel.Selector(response.text)
    data = selector.css('d::text').getall()
    for i in data:
        print(i)
        with open('B站弹幕.csv', mode='a', newline='', encoding='utf-8-sig') as f:
            writer = csv.writer(f)
            links = []
            links.append(i)
            writer.writerow(links)

词云代码

import jieba
import wordcloud
import imageio
# 读取文件内容
f = open('csv文件地址', encoding='utf-8')
txt = f.read()
# print(txt)
# jiabe 分词 分割词汇
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 词云图设置
wc = wordcloud.WordCloud(
        width=800,         # 图片的宽
        height=500,         # 图片的高
        background_color='white',   # 图片背景颜色
        font_path='msyh.ttc',    # 词云字体
        # mask=py,     # 所使用的词云图片
        scale=15,
)
# 给词云输入文字
wc.generate(string)
# 词云图保存图片地址
wc.to_file('\\1.png')

Python_sn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python爬取B站不讲武德、耗子尾汁出处的视频弹幕

前言耗子喂汁是什么意思什么梗呢？可能很多人不知道，这个梗是出自马保国，经常上网的人可能听说过这个名字，而他所说的一些话也被当成了一些梗，比如年轻人不讲武德，闪电五连鞭等等B站马保国的一段视频中他右眼红肿金句频出，部分经典句式甚至被网友们总结归纳成了“保国体”，变成了口头禅，比如“年轻人不讲武德，欺侮我六十九岁的老同志”“耗子尾汁”（好自为之）等那么让我们来看看网友们大都发了啥弹幕很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
复制链接

扫一扫