爬取B站热榜信息做数据分析及可视化-CSDN博客

本文链接：https://blog.csdn.net/m0_71225847/article/details/147637254

1. 项目背景与目标

背景：B站热榜反映当下最受关注的内容趋势，通过分析热榜数据可挖掘：

用户内容偏好
热门视频特征规律
UP的信息

目标：
✅ 实时获取热榜TOP100数据
✅ 构建可视化看板
✅ 进行数据分析

2. 技术栈与工具

技术环节	工具/库	版本要求
数据爬取	DrissionPage	≥4.0.0
数据存储	CSV	-
可视化分析	Power BI Desktop	≥2023
开发环境	Python 3.10 + VSCode	-

3. 数据爬取实现

3.1 核心代码片段

from DrissionPage import ChromiumPage
from time import sleep
import csv
import datetime

# 实例化浏览器对象
dp = ChromiumPage()
# 监听数据包
dp.listen.start('x/web-interface/popular?')
# 访问网站
dp.get('https://www.bilibili.com/v/popular/all?spm_id_from=333.1007.0.0')

# 滚动到页面底部
dp.scroll.to_bottom()
# dp.scroll.to_location(x=1,y=10000000)
# 等待页面加载新内容
sleep(1)
# 尝试获取响应数据
resp = dp.listen.wait(timeout=5)

json_data = resp.response.body
# pprint.pprint(json_data)
content = json_data['data']['list']
new_data_found = False
for index in content:
     dit = {
                '博主': index['owner']['name'],
            }
            csv_writer.writerow(dit)
            print(dit)
            processed_titles.add(title)

技术要点：