BilibiliCommentScraper 项目安装和配置指南
BilibiliCommentScraper 项目地址: https://gitcode.com/gh_mirrors/bi/BilibiliCommentScraper
1. 项目基础介绍和主要编程语言
BilibiliCommentScraper 是一个用于爬取 Bilibili 视频评论的开源项目。该项目的主要目的是帮助用户批量爬取 Bilibili 视频的评论数据,包括一级评论、二级评论、用户昵称、用户ID、发布时间、点赞数等信息。项目的主要编程语言是 Python。
2. 项目使用的关键技术和框架
该项目主要使用了以下关键技术和框架:
- Selenium: 用于模拟浏览器操作,实现自动化登录和页面滚动,从而获取评论数据。
- BeautifulSoup4: 用于解析 HTML 页面,提取所需的评论数据。
- WebDriver Manager: 用于自动管理浏览器驱动程序,确保 Selenium 能够正常工作。
3. 项目安装和配置的准备工作和详细安装步骤
准备工作
在开始安装和配置之前,请确保您的系统已经安装了以下软件和工具:
- Python 3: 项目依赖于 Python 3 环境。您可以从 Python 官方网站 下载并安装最新版本的 Python。
- Git: 用于克隆项目代码。您可以从 Git 官方网站 下载并安装 Git。
详细安装步骤
步骤 1: 克隆项目代码
首先,打开终端或命令提示符,使用以下命令克隆项目代码到本地:
git clone https://github.com/Ghauster/BilibiliCommentScraper.git
步骤 2: 进入项目目录
克隆完成后,进入项目目录:
cd BilibiliCommentScraper
步骤 3: 安装依赖库
在项目目录下,使用以下命令安装项目所需的依赖库:
pip install selenium beautifulsoup4 webdriver-manager
步骤 4: 配置视频列表
将要爬取评论的视频 URL 列表放入名为 video_list.txt
的文件中,每行一个 URL。例如:
https://www.bilibili.com/video/av12345678
https://www.bilibili.com/video/av87654321
步骤 5: 运行爬虫程序
在终端或命令提示符中,运行以下命令启动爬虫程序:
python Bilicomment.py
步骤 6: 登录 Bilibili
程序启动后,会提示您登录 Bilibili。请按照提示登录您的 Bilibili 账号,登录成功并跳转后,回到终端或命令提示符,按回车键继续。
步骤 7: 等待爬取完成
爬虫程序会自动开始爬取评论数据,并将每个视频的评论数据保存到以视频 ID 命名的 CSV 文件中。CSV 文件将位于代码文件同级目录下。
注意事项
- 如果遇到
Permission denied
错误,请检查是否有其他进程占用了正在写入的 CSV 文件或progress.txt
文件,或者尝试以管理员身份运行代码。 - 如果爬取过程中网页崩溃,程序会在一定时间后自动重启浏览器并断点续爬。如果问题频繁发生,可以尝试延长延时时间或改为随机延时。
通过以上步骤,您就可以成功安装和配置 BilibiliCommentScraper 项目,并开始爬取 Bilibili 视频的评论数据。
BilibiliCommentScraper 项目地址: https://gitcode.com/gh_mirrors/bi/BilibiliCommentScraper