B站关键词视频信息爬虫（可直接运行）

初聆

已于 2024-12-19 09:08:34 修改

阅读量3.9k

点赞数 22

分类专栏： Python爬虫文章标签：爬虫 python beautifulsoup 网络爬虫

于 2024-01-04 15:04:51 首次发布

本文链接：https://blog.csdn.net/Drzeal/article/details/135386396

版权

本文详细描述了如何使用Python爬虫技术，通过requests和BeautifulSoup库从Bilibili搜索结果中抓取视频标题、发布时间、链接、up主信息等，并进一步深入爬取视频的点赞、投币、收藏等数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.爬取内容

搜索关键词：跨年

视频标题、发布时间、视频链接、up主id、up主首页链接

2.代码及解析

1）导入库

import requests  # 导入用于发送HTTP请求的requests库
from bs4 import BeautifulSoup # 导入用于解析HTML的BeautifulSoup库
import pandas as pd # 导入用于处理数据的pandas库

2）发送请求

网址（只需修改文字即可），page为第1页，设置请求头（跳过反爬）

# 网址
url = "https://search.bilibili.com/all?vt=53655423&keyword=跨年&page=1"
# 设置请求头，用于模拟浏览器发送请求
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
# 发送 HTTP 请求并获取响应内容
response = requests.get(url=url, headers=headers)
soup = BeautifulSoup(response.content, "html.parser")

3）解析结果

在B站搜索界面，按F12或者浏览器右上角菜单，可以打开开发者工具然后在网页结构中，鼠标移动到指定位置，左边会有对应的颜色显示，当前网页结构是哪部分内容，然后找到自己想要的内容，就可以开始解析了

# 解析搜索结果
items = soup.find_all("div", class_="bili-video-card__info __scale-disable")

# 创建空的DataFrame，用于存储解析后的数据
titles = pd.DataFrame([], columns=['标题'])
times = pd.DataFrame([], columns=['发布时间'])
urls = pd.DataFrame([], columns=

最低0.47元/天解锁文章