扒微博的数据

最近想查看某个weibo主的内容,想着有没有现成的程序可以直接下载的。github上找到了可以使用的程序。将其加载到eclipse中。

dataabc/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频

使用过程中会遇到以下问题:

1.没有找到user_id_list.txt文件,在解压文件中新建该文件,此文件写入weibo的id(自己需要的博主id)。

2.没有提示错误,但是进度条为0。原因有2点,一是确实距离爬取数据的时间过近,博主没有更新。二是修改user_id_list.txt 文件中的内容,把id后面带的时间去除。

关联文件

  1. weibo-crawler/config.json   中的 "since_date": 1,    (可修改,1表示当前下载时间往前推1天)

3.无法工作,提示warning。因为下载图片需要cifar10.py,所以增加cifar10的插件,一般keras或者tensorflow都会需要。可能还会需要其他依赖的插件。

4.别忘记运行此程序需要联网。

5.csv文件乱码,拷贝到其他电脑上,打开的内容是正常。

注意点:

(1)增加一个重点内容:如何找到微博的用户id(user_id)---每次回来用时都忘记mark。

GitHub - dataabc/weibo-follow: 爬取关注列表中微博账号的微博

该作者提供的注释。总结下就是找到某个人的微博号,然后点击其“资料”,查看网址,有一串数字的就是user_id内容。

举例:迪丽热巴   ​​,其中1669879400就是想要的内容。

https://weibo.cn/1669879400/info

(2)(补)使用有效的cookie才能得到200页以上的博文

之前运行的时候没有发现,如果直接使用这个程序只能扒200页的博文,超过部分无法显示,同时下载图片时还是debug的状态。

处理方法:

config.json文件中的cookie更换为自己的cookie。

如何查看自己的cookie,则是打开网址https://m.weibo.cn/ ,然后chrome网页,右击-检查-网络,然后再次访问这个网址,找到网络中的名称m.weibo.cn的标头,可以看到cookie。

同时注意这个cookie每次刷新会有所变化。需要确认这个cookie是有效的。该作者对这个有进行说明。

dataabc/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频https://github.com/dataabc/weibo-crawler#%E5%A6%82%E4%BD%95%E6%A3%80%E6%B5%8Bcookie%E6%98%AF%E5%90%A6%E6%9C%89%E6%95%88%E5%8F%AF%E9%80%89或者下图(来源--作者dataabc的说明中截图[上面网址的内容])。

能够看到提示“cookie检查有效”时,再次抓取200页后面的数据(config.json中的“start_page”改为190页)。

能够看到提示“cookie检查有效”时,再次抓取200页后面的数据(config.json中的“start_page”改为190页)。如果尝试了很多次还是失败,出现错误。那么cookie是有有效期的(见下图的expires/max-age),可以把网页的设置中删除cookies。然后重新对 https://m.weibo.cn/ 登陆,同时查看cookie(参照上面的方法),并且该wb网页不要关闭

YiBo微博是一款专为Android用户打造的聚合型微博客户端,完美支持新浪、腾讯、搜狐、网易以及Twitter五大微博平台,界面清爽,使用简单,支持多账户跨平台同步发布与分享,为您带来不一样的使用体验。软件功能1. 随时随地,掌握关注人的动态,阅读最新资讯和时尚新闻;手机在手,体验精彩微博2. 即拍即传,记录生活点滴,享受快乐微博;3. 最新微博、评论和私信自动提醒功能,支持微博和用户搜索;4. 精巧的缓存设计,gzip通信压缩,大大减少手机流量,提高阅读体验;5. 支持新浪、腾讯、搜狐、网易和Twitter五大微博平台,方便地消息同步和帐号管理;6. 支持3G、WIFI、CMNET和CMWAP等各种网络类型接入;7. 支持OAuth认证方式,保护帐号和通信安全;最新版本1、修复保存图片双份的bug;2、修改点击冷笑话,今日新闻等崩溃的bug;3、关闭腾讯微博自动同步qq空间的标记;4、修复人人网和网易的授权问题;v2.1.3更新:1、增加全屏模式,非全屏模式下隐藏左下角开关;2、增加语言切换功能;3、增加爱动漫频道;4、皮肤更新,修复部分bug ; v2.1.2更新:1、提供web版的管理后台;2、增加隐藏导航栏的开关,以增加阅读区域;3、增加魅族M9夜间高清皮肤,修复夜间皮肤的部分bug ;4、增加尾巴控头衔;5、优化视频解析性能和适配;6、twitter增加搜索和图片显示功能;7、评论增加查询@用户的功能,优化表情处理;8、修复MIUI下wifi打开精品应用崩溃的bug,修复多处bugv2.1.1更新:1、新增主题管理功能,提供夜间皮肤;2、新增人人网,QQ空间,开心网的状态同步和相册同步;3、下载使用精品应用,可增加YiBo通行证的积分的功能 ;4、首个积分头衔“同步控”,可使用服务器同步,快速且省流量;5、支持视频解析功能,方便查看视频;6、新增通过网页添加帐号的功能;7、优化滑动性能,修复多处bug等; 标签:微博客户端
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值