Python爬取腾讯视频16978条弹幕,发现弹幕比剧还精彩

东北民间流传着关于“皇围猎人”的神秘传说

他们世代生存于深山,为帝王守护兴安岭这片龙兴之地的气脉运转。传闻猎人除了精通狩猎之法,更知晓驱鬼通神之术。

在东北一处偏僻的山村里,悄然发生一起灭门惨案,在村民们的恳求下,最后一代皇围猎人刘二爷决定出山调查真相,不想过程中怪事屡现,

老林子里的秘密也被渐渐揭开.....

图片

咱打小就喜欢看这种片子,大兴安岭、东北马氏、神农架、盗墓笔记、鬼吹灯这种片子看得我是不亦乐乎。

前一个月在抖音上看到这部片子预告的时候就已经迫不及待了,今天为了看片还专门开了个腾讯会员。看完一个字:过瘾!

了解一下其他小伙伴看此片的有什么感受,今天就用python爬虫来获取一下16978条弹幕都说了啥?

图片

老规矩,搞爬虫就上三部曲:

1--获取目标网址;

2--发送请求;

3--获取响应

我们的目标是腾讯视频,所以首先打开软件搜索我们的电影猎人传说,可以看到弹幕在不断的刷新,后台数据也是在不断刷新的。

图片

针对这种情况我们该如何快速锁定这些弹幕呢?

打开之后搜索F12打开开发者模式,然后搜索其中一条弹幕信息,然后找到它所对应的链接如下:

图片

复制链接到网页发现包含210条弹幕信息,而我们所要的信息都在这个'content'的字段里

图片

返回浏览器的Preview也可以看到同类信息。这些弹幕信息也是在content中。

图片

我们先来试试获取这些弹幕信息。

#获取浏览器响应信息
resp = requests.get(url, headers = headers)
#转为json对象
json_data = json.loads(resp.text)['comments']
#打印浏览器响应数据
print(json_data)

结果如下,可以看到我们已经成功获取到了浏览器相应的信息。姑且可以从中获取我们想要的弹幕信息。

图片

从上图可以看出我们想要获取的content信息都包含在我们已经获取到的jason数据中,我们接下来要做的只是遍历出其中信息即可。

#遍历comments中的弹幕信息
for comment in json_data:
    print(comment['content'])

结果如下:

图片

可以看出,获取一个请求的弹幕信息已经成功抓取到我们本地。但是我们要获取的是整部片子的弹幕。这只是其中一条请求的210条弹幕而已。

所以接下来的重点是如何获取全部的请求。这里有一个取巧办法,搜索第一条弹幕链接和最后一条弹幕链接。找出来做对比。

图片

找出规律:

https://mfm.video.qq.com/danmu?target_id=6661354455%26vid%3Di003639l2zy&timestamp=15
https://mfm.video.qq.com/danmu?target_id=6661354455%26vid%3Di003639l2zy&timestamp=2445

发现它的参数timestamp是从15开始到2445结束的。

所以我们可以使用一个函数来获取这些弹幕请求信息:

def get_danmu():
    url = 'https://mfm.video.qq.com/danmu?target_id=6661354455%26vid%3Di003639l2zy&timestamp=15'
    for i in range(15, 2445, 30):
        data = {'timestamp':i}
        res = requests.get(url, params = data, headers = headers)
        # 转为json对象
        json_data = json.loads(res.text)['comments']
        # 遍历comments中的弹幕信息
        for comment in json_data:
            print(comment['content'])

到此位置整部片子的所有弹幕已经保存于本地了,接下来我们要词云做更加直观的显示,所以我们先将这些数据保存到本地txt文档中。

comments_file_path = 'lrcs_comments.txt'

# 获取comments中的弹幕信息并且写入指定路径
        for comment in json_data:
            with open(comments_file_path, 'a+', encoding = 'utf-8')as fin:
                fin.write(comment['content']+'\n')

图片

文本保存好之后第一步我们需要切割分词,这里我们采用精确模式来切割最适合用于数据分析。

#切割单词
#定义切割单词函数
def cut_words():
    #读取文本
    with open(comments_file_path, encoding = 'utf-8') as file:
        comment_text = file.read()
        #使用jieba精确模式,句子最精确地切开,适合文本分析
        word_list = jieba.lcut_for_search(comment_text)
        new_word_list = ' '.join(word_list)
        return new_word_list

结果如下:

图片

分词切割好之后我们就可以用它来做词云图了

#制作词云图函数
def create_word_cloud():
    #自定义图片
    mask = imread('img.png')
    wordcloud = WordCloud(font_path='msyh.ttc', mask=mask).generate(cut_words())
    wordcloud.to_file('picture.png')

我在此选的图片是一张大马猴的图片。

图片

最终词云图如下:

图片

感觉一部惊悚片愣是被小伙伴们看出了喜感。这审美差距十万八千里啊!

有空你也看一下,完了写一下你的观后感~~~~

### 使用 Python 抓取电视弹幕数据 #### 准备工作 在开始编写爬虫之前,需先了解目标网站的数据传输机制。通常情况下,弹幕数据会通过 AJAX 请求动态加载到页面上。因此,在开发环境中打开浏览器的开发者工具并监控网络请求是非常必要的。 对于芒果TV和腾讯视频这类平台而言,每当视频播放一段时间后(如每分钟或30秒),服务器便会发送一个新的 JSON 数据包给客户端,其中包含了最新的弹幕信息[^2][^3]。 #### 主要技术栈 - **编程语言**: Python - **HTTP库**: `requests` 或者更高级别的异步 HTTP 客户端比如 `aiohttp` - **解析HTML/XML文档**: 可选使用 `BeautifulSoup`, 不过大多数时候只需要处理JSON响应即可 - **存储/保存数据**: Pandas DataFrame 是一种方便的方式用于结构化存储收集来的数据;也可以考虑直接存入数据库中 #### 实现过程概览 1. 找到实际承载弹幕消息的 API 接口 URL; 2. 构造合适的参数模拟真实用户的访问行为发起 GET / POST 请求获取原始数据; 3. 对返回的结果做适当预处理转换成易于理解的形式; 4. 将清洗后的记录按照一定格式持久化下来以便后续分析应用。 下面给出一段简单的代码片段展示如何利用 requests 库读取来自腾讯视频的一个假设性的弹幕接口: ```python import json import pandas as pd import requests def fetch_danmaku(video_id, page=1): url = f"https://example.com/api/danmakus?videoId={video_id}&page={page}" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', # 如果有必要的话还可以加入Referer等其他header字段来绕过某些站点的安全检测 } response = requests.get(url=url, headers=headers) if not response.ok: raise Exception(f"Failed to load danmu data from {url}") result = response.json() items = [] for item in result['data']['list']: content = item["content"] user_degree = item["userDegree"] items.append({ "弹幕": content, "会员等级": user_degree }) df = pd.DataFrame(items) return df if __name__ == '__main__': video_id = input('请输入想要抓取弹幕的视频ID:') try: cache = fetch_danmaku(video_id) print(cache.head()) filename = f"{video_id}_danmaku.csv" cache.to_csv(filename, index=False, encoding='utf_8_sig') print(f'已成功导出至{filename}') except Exception as e: print(e) ``` 这段脚本实现了基本的功能需求——向指定地址发出带有必要查询字符串的GET请求,并将接收到的内容转化为Pandas表格形式打印出来最后另存为CSV文件[^4]。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

印象Python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值