扒微博的数据

annekqiu

已于 2025-05-15 17:55:35 修改

阅读量1.9k

点赞数 2

分类专栏：问题数据处理 python 文章标签： python json

于 2024-11-21 09:43:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014034795/article/details/143407108

版权

问题同时被 3 个专栏收录

15 篇文章

订阅专栏

3 篇文章

订阅专栏

1 篇文章

订阅专栏

最近想查看某个weibo主的内容，想着有没有现成的程序可以直接下载的。github上找到了可以使用的程序。将其加载到eclipse中。

dataabc/weibo-crawler: 新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频

使用过程中会遇到以下问题：

1.没有找到user_id_list.txt文件，在解压文件中新建该文件，此文件写入weibo的id（自己需要的博主id）。

2.没有提示错误，但是进度条为0。原因有2点，一是确实距离爬取数据的时间过近，博主没有更新。二是修改user_id_list.txt 文件中的内容，把id后面带的时间去除。

关联文件

weibo-crawler/config.json 中的 "since_date": 1, （可修改，1表示当前下载时间往前推1天）

3.无法工作，提示warning。因为下载图片需要cifar10.py，所以增加cifar10的插件，一般keras或者tensorflow都会需要。可能还会需要其他依赖的插件。

4.别忘记运行此程序需要联网。

5.csv文件乱码，拷贝到其他电脑上，打开的内容是正常。

注意点：

（1）增加一个重点内容：如何找到微博的用户id（user_id）---每次回来用时都忘记mark。

GitHub - dataabc/weibo-follow: 爬取关注列表中微博账号的微博

该作者提供的注释。总结下就是找到某个人的微博号，然后点击其“资料”，查看网址，有一串数字的就是user_id内容。

举例：迪丽热巴，其中1669879400就是想要的内容。

https://weibo.cn/1669879400/info

（2）（补）使用有效的cookie才能得到200页以上的博文。

之前运行的时候没有发现，如果直接使用这个程序只能扒200页的博文，超过部分无法显示，同时下载图片时还是debug的状态。

处理方法：

config.json文件中的cookie更换为自己的cookie。

如何查看自己的cookie，则是打开网址https://m.weibo.cn/ ，然后chrome网页，右击-检查-网络，然后再次访问这个网址，找到网络中的名称m.weibo.cn的标头，可以看到cookie。

同时注意这个cookie每次刷新会有所变化。需要确认这个cookie是有效的。该作者对这个有进行说明。

dataabc/weibo-crawler: 新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频https://github.com/dataabc/weibo-crawler#%E5%A6%82%E4%BD%95%E6%A3%80%E6%B5%8Bcookie%E6%98%AF%E5%90%A6%E6%9C%89%E6%95%88%E5%8F%AF%E9%80%89或者下图（来源--作者dataabc的说明中截图[上面网址的内容]）。

能够看到提示“cookie检查有效”时，再次抓取200页后面的数据（config.json中的“start_page”改为190页）。

能够看到提示“cookie检查有效”时，再次抓取200页后面的数据（config.json中的“start_page”改为190页）。如果尝试了很多次还是失败，出现错误。那么cookie是有有效期的（见下图的expires/max-age），可以把网页的设置中删除cookies。然后重新对 https://m.weibo.cn/ 登陆，同时查看cookie（参照上面的方法），并且该wb网页不要关闭。

博客等级

码龄11年

34
原创

140
点赞

216
收藏

78
粉丝

关注

私信

热门文章

分类专栏

python 1篇
问题 15篇
数据处理 3篇
嵌入式 17篇
应用界面 2篇
QT 1篇
物联网 1篇
知识图谱 1篇
neo4j安装 1篇
yolov3
flask

展开全部收起

最新评论

MPLAB X IDE 环境中配置字的注意点
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619661111。
PCB Matrix LP Calculator 2010无法安装于win10
happy_weiyi: 求解答
OneNet平台使用可视化界面(MQTT协议)
jaye123: 没有，我估计是他关掉了这个功能，我换了阿里云了
OneNet平台使用可视化界面(MQTT协议)
不知名小菜鸟9号: 你好，我也是这个问题，您解决了么？
OneNet平台使用可视化界面(MQTT协议)
annekqiu: 同样在“控制”中找到“按钮”，放置该按钮，然后在“样式”--〉“数据系列”---〉“系列1”---〉“命令内容”改为“LEDON”（单片机程序可以控制灯亮的命令），“系列2”---〉“命令内容”改为“LEDOFF”，在“数据”---〉“数据源选择”---〉对应项目的数据流。其中“LEDON”“LEDOFF”是您单片机的程序控制灯亮和灭的标志，举例如果您单片机程序内控制灯的标志位为“on”，则控件的命令内容改为“on”。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。