WeiboSpider的微博数据采集历程

目录

一、WeiboSpider运行环境的配置

1.conda安装虚拟环境

2.激活weibo环境

3.conda命令安装Scrapy和依赖

4.再安装python-dateutil模块

二、用WeiboSpider采集微博数据

1.下载WeiboSpider到本地

2.填写cookie

3.修改采集参数

4.进入项目路径,运行程序


    因为这两天做课题需要用到微博中的帖子、用户评论等数据,怎么办呢?自己又是个菜鸡,写个数据采集的代码还不够功夫的,并且还很容易被封,于是便想有没有专门采集微博数据的项目,别说还真找到了个,WeiboSpider,经过一番研究,终于顺利采到数据,心里别提多感激这个项目的大佬了,要不然关数据都不知道够我折腾多久...下面就详细介绍我用WeiboSpider项目的数据采集的过程。

一、WeiboSpider运行环境的配置

1.conda安装虚拟环境

conda create -n weibo python=3.9.0 -y

    创建名为weibo的虚拟环境,指定python的版本为3.9.0

2.激活weibo环境

conda activate weibo

    激活后,conda的cmd命令提示符前面的括号中的名称会由base变为weibo:

3.conda命令安装Scrapy和依赖

conda install scrapy -c conda-forge

    安装过程可能比较缓慢,稍微等一等,并且此时的scrapy版本为2.11.2

    需要注意:最好使用conda命令安装,使用pip命令可能会出现依赖不兼容的错误!

4.再安装python-dateutil模块

pip install python-dateutil -i https://pypi.tuna.tsinghua.edu.cn/simple

    我这儿 conda install python-dateutil 安不上,就用了pip命令。

    经过以上过程后,环境便配置完毕!接下来就利用WeiboSpider项目进行数据采集!

二、用WeiboSpider采集微博数据

1.下载WeiboSpider到本地

    WeiboSpider项目的镜像网址:https://gitcode.com/gh_mirrors/weibo/WeiboSpider/overview,下载解压后项目文件夹的路径及文件概况如下:

2.填写cookie

    去weibo官网首页用F12找一下cookie,填写到cookie.txt文档中。

3.修改采集参数

    打开spiders文件夹下的tweet_by_keyword.py文件,按照需求修改即可,修改这两个参数就行。

4.进入项目路径,运行程序

    在conda的cmd中跳转到weibospider的文件夹中,然后执行命令python run_spider.py tweet_by_keyword,如下图所示:

    出现下图所示的采集信息表示程序正常运行,完工,坐等数据即可~

    采集的数据最终存储在output文件夹下的json文件中,这个文件夹和文件都是程序自动创建,不用手动添加!

最后,我采集的是根据微博的关键词搜索返回的微博,对应原项目也就是“基于关键词的微博采集”这一条,想采集评论、用户信息等数据,也可以参照原项目网址修改对应参数即可!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值