weibospider使用记录

最新推荐文章于 2024-08-09 08:06:10 发布

正在加载用户名

最新推荐文章于 2024-08-09 08:06:10 发布

阅读量811

点赞数 3

文章标签： elasticsearch 大数据搜索引擎

本文链接：https://blog.csdn.net/qq_67831211/article/details/134274499

版权

小白第一次爬虫，不会专业代码和用语，只记录使用过程。

按readme.md一步步操作

1.安装git

意外输错用户名和密码可以这样改：

git config --global --unset user.name "yourName"
git config --global --unset user.email "your@email.com"

git禁用ctrl C ctrl V，需要右键copy复制和paste粘贴。

电脑搜索框输入【环境变量】，选择【编辑系统环境变量】

选择【环境变量（N）】

选中【path】【编辑】

选择【新建】，复制安装的git文件夹下bin文件夹、cmd文件夹、git-core文件夹路径。

感谢

在本地github仓库里，或者其他想存放爬虫数据的文件夹里右键，win11可能要点击【显示更多选项】，选择【open git bash here】，会自动打开输入框。

我是一行行粘贴和运行的以下代码：

git clone https://github.com/dataabc/weiboSpider.git
cd weiboSpider
pip install -r requirements.txt

然后本地仓库文件夹里会生成【weiboSpider】文件夹

在【weiboSpider】文件夹里，右键选择【open git bash here】

输入了：

python -m weibo_spider

因为我使用Python3没反应。在cmd里运行会报错clone是无效的。所以选择了在git bash里使用这行代码。

运行完成后，【weiboSpider】文件夹里出现config.json。

用记事本方法打开config.json，按程序设置文档调整你要爬取的用户信息和爬取方式。

注意：设置write_mod时，"csv"是一个含有微博内容转发数点赞数评论数等的csv文件。"txt"也是包含了微博内容转发数点赞数评论数等，"json"中才包含博主的简介性别等博主信息，默认的config.json文件中不含json，想要获取博主个人信息要调整一下。

获取图片和视频的话会很慢。

继续在【weiboSpider】文件夹里，右键选择【open git bash here】

输入：

python -m weibo_spider --config_path="config.json"

就开始运行爬虫。等到命令框不再闪动可以键入文字时爬虫完成。

爬虫下来的数据存储在【weiboSpider】文件夹里的【weibo】文件夹中，按照博主昵称分了文件夹。

今天只试了这个，不知道有没有更新的方法，也没有做到爬取评论和关注者、被关注者的效果，也没有对爬取的文本进行分析，下回再说。

只是记录使用过程，也许会有一些错误，见谅。

关注