本项目主要功能是爬取部分哔哩哔哩up主信息和up主投稿视频信息,用作数据处理与分析学习(不得用于商业和其他侵犯他人权益的用途)。有此需求的朋友可以了解下本项目
项目地址:
https://github.com/cgDeepLearn/BilibiliCrawler
项目特点:
-
采取了一定的反反爬策略。
-
Bilibili更改了用户页面的api, 用户抓取解析程序需要重构。
快速开始:
-
拉取项目, git clone https://github.com/cgDeepLearn/BilibiliCrawler.git
-
进入项目主目录,安装虚拟环境crawlenv(请参考使用说明里的虚拟环境安装)。
-
激活环境并在主目录运行crawl,爬取结果将保存在data目录csv文件中。
ource activate crawlenv
python initial.py file # 初始化file模式
python crawl_user.py file 1 100 # file模式,1 100是开始、结束bilibili的uid
进入data目录查看抓取的数据,是不是很简单!
如果需要使用数据库保存和一些其他的设置,请看下面的使用说明
使用说明:
1.拉取项目
git clone https://github.com/cgDeepLearn/BilibiliCrawler.git
2.进入项目主目录, 安装虚拟环境
- 若已安装anaconda
conda create -n crawlenv python=3.6
source activate crawlenv # 激活虚拟环境
pip install -r requirements.txt
- 若使用virtualenv </