小白第一次爬虫,不会专业代码和用语,只记录使用过程。
github网址:dataabc/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据 (github.com)
按readme.md一步步操作
1.安装git
2.git配置
前两步参考了Git(2)-- Git安装后首次配置与第一次使用Git和Github管理自己的代码(超详细纯小白图文教程)_git第一次配置是否成功命令-CSDN博客感谢。
意外输错用户名和密码可以这样改:
git config --global --unset user.name "yourName"
git config --global --unset user.email "your@email.com"
git禁用ctrl C ctrl V,需要右键copy复制和paste粘贴。
3.添加环境变量
电脑搜索框输入【环境变量】,选择【编辑系统环境变量】
选择【环境变量(N)】
选中【path】【编辑】
选择【新建】,复制安装的git文件夹下bin文件夹、cmd文件夹、git-core文件夹路径。
参考了github_weibospider使用报告-CSDN博客
Git的安装教程(完成clone一个项目到本地)_git clone后的项目怎么安装-CSDN博客
感谢
4.clone文件
在本地github仓库里,或者其他想存放爬虫数据的文件夹里右键,win11可能要点击【显示更多选项】,选择【open git bash here】,会自动打开输入框。
我是一行行粘贴和运行的以下代码:
git clone https://github.com/dataabc/weiboSpider.git
cd weiboSpider
pip install -r requirements.txt
然后本地仓库文件夹里会生成【weiboSpider】文件夹
在【weiboSpider】文件夹里,右键选择【open git bash here】
输入了:
python -m weibo_spider
因为我使用Python3没反应。在cmd里运行会报错clone是无效的。所以选择了在git bash里使用这行代码。
运行完成后,【weiboSpider】文件夹里出现config.json。
5.设置爬取用户和方式
用记事本方法打开config.json,按程序设置文档调整你要爬取的用户信息和爬取方式。
注意:设置write_mod时,"csv"是一个含有微博内容转发数点赞数评论数等的csv文件。"txt"也是包含了微博内容转发数点赞数评论数等,"json"中才包含博主的简介性别等博主信息,默认的config.json文件中不含json,想要获取博主个人信息要调整一下。
获取图片和视频的话会很慢。
6.运行
继续在【weiboSpider】文件夹里,右键选择【open git bash here】
输入:
python -m weibo_spider --config_path="config.json"
就开始运行爬虫。等到命令框不再闪动可以键入文字时爬虫完成。
爬虫下来的数据存储在【weiboSpider】文件夹里的【weibo】文件夹中,按照博主昵称分了文件夹。
今天只试了这个,不知道有没有更新的方法,也没有做到爬取评论和关注者、被关注者的效果,也没有对爬取的文本进行分析,下回再说。
只是记录使用过程,也许会有一些错误,见谅。