一次性搞定微博,苏生不惑又写了个脚本

本文介绍了如何使用脚本抓取微博数据,包括内容、点赞、转发和评论等,展示了李健微博的案例,并推荐了用于导出微博内容至Excel、PDF和HTML的工具。同时提及了微博图床问题及解决方案,以及数字图书馆的新应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

苏生不惑第461 篇原创文章,将本公众号设为星标,第一时间看最新文章。

之前分享过很多微博相关的脚本和工具一键批量下微博内容/图片/视频,获取博主最受欢迎微博,图片查找微博博主,今天再整理下,一次性搞定微博。

还是以李健的微博为例https://weibo.com/u/1744395855 ,抓取2010-2023年所有的微博数据excel,包含微博链接,微博内容,发布时间,点赞数,转发数,评论数,话题等。3f7459b03a9da6068b935751576cd0d5.jpeg

每个月的微博转评赞总数曲线,2015年是高峰。04c4acd2a4d930f6c0f5628276156d87.jpeg微博原创与转发量曲线,2013年大量转发。7612995e63495bf02b52ee0e5a15898a.jpeg平常主要用iPad和网页版发微博。cfa9e73c1a86827e4dfafed89e36c58d.jpeg

微博内容生成的词云图效果:4260e7b918b971527a4eac63db5ff962.jpeg

抓取微博评论以这条微博为例 https://m.weibo.cn/status/4957540158537800 有些人是真的狗

bddfec819cee3822eb2b2e384583563f.png这条微博下5000多条评论微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具 ,大家都在义愤填膺的声讨狗主人。

967b28b1c95c38c241b630e70e0386b5.png来自广东的评论最多:

13ce114491c9723b60429280890e1bce.png

还有抓取微博转发,以这条微博为例https://m.weibo.cn/detail/4949167974650596 ,抓取的4000多条转发微博excel数据,包含微博昵称,微博uid,转发时间,转发地区,转发来源,转发内容,点赞数,转发数,评论数等。dc27ed2bc73e50420074479dfd401b3a.jpeg

来自江苏的转发最多:4e99051e342bd47d3e394642900f238d.jpeg用iPhone客户端转发的微博最多:e1cf170c15047aca4474a46de9ea2a9e.jpeg

转发微博生成的词云图:8e875f3cdb5bd536875e59642f5c60aa.jpeg

然后再说导出微博内容pdf, https://github.com/meterscao/Speechless  这个浏览器扩展可以将新浪微博的所有内容导出PDF ,打开https://weibo.com/musiclijian ,点击右上角开始拉取该用户可见的微博内容,然后用 Chrome浏览器 的导出 PDF功能合成pdf。dff1a502b25d852e660b772a13e6e541.jpeg可以设置时间范围和内容类型(全部微博,原创微博)。e1dfce742f32b42fa729b644c333b137.jpeg

效果:f36e6466aa073f8c57a03d314450d158.jpeg抓取完后保存为pdf。342463257053d4543ee5f52604968b84.jpeg


168821498a1e9add9e003c64a02fdca1.jpeg最后生成的pdf文件:014e7ec8ed9020a660b7d021ccec88d4.jpeg除了这个chrome扩展还可以用这个油猴脚本导出微博内容 https://github.com/Chilfish/Weibo-archiver,安装油猴脚本后设置时间范围,是否下载原图,是否包含评论,是否包含转发微博,设置获取的评论数,不过只能获取公开可见的微博,获取数据不要刷新或关闭网页,否则重新获取。52368b75b5b565ec9ff54fa65117f477.jpeg开始备份:7da4160102a947dc3ece0ef92be5c772.jpeg抓取后直接导出pdf,效果:0af07ebd64d53bf1dc95f049af8c9278.jpeg

备份微博收藏可以用这个油猴脚本,它能备份微博收藏,发布和点赞,备份以页为单位,每页20条,可以在输入框设置自已需要备份的页面范围,默认会下载全部数据,为防止保存文件过大,对备份数据分文件保存,默认10页存一个文件,备份图片清晰度分为3个等级,等级越大图片越大越清晰,备份完成后,数据自动保存到本地,下载格式为包含html文件和图片资源的 zip 压缩包,解压后使用谷歌浏览器打开。2fa13aebd486d705f1dc2656a7d50d2d.jpeg83395798b74b360f33be0faf54409adf.jpeg

导出的微博html效果:80f0499a412bd6e3952e54a3f97e9f87.jpeg备份他人微博需要输入对方的用户id,比如李健的id为1744395855 。3ab815b2f9b1e9b74c9b2d88746dc4c9.jpeg效果如图:4c7df8f65a0da6d0bf5b0fe858d234d2.jpeg

顺便再说下新浪博客下载https://github.com/junyiz/dature ,以古天乐的新浪博客为例,没想到他居然是日更博客 https://blog.sina.com.cn/louiskoo2008,从2008年一直更新到2023年,近6000条博客。
be32b22d63372d5dbc928b859b257df3.jpeg

打开命令行执行 dature.cmd -u 1191258123 -c "cookie"8a11efc14703a7c5ede3c1e430860b85.jpeg导出的效果如图,左侧为文章标题,右侧为文章内容:87a8ce82cb6a16471a742fb726cb0620.jpeg

再说下微博无水印图,最近微博图片加了防盗链,直接打开微博图片地址会显示403 Forbidden,很多用微博当图床的网站都挂了。9e4ec74be75b49c67317c1f5e7f63ef4.jpeg

解决方法很简单,安装这个chrome扩展就可以继续用了https://chrome.google.com/webstore/detail/header-editor/eningockdidmgiojffjmkdblpjocbhgh/ ,它可以管理浏览器请求,包括修改请求头和响应头、重定向请求、取消请求,修改请求头、响应头、重定向请求、取消请求,安装后点击扩展进入管理界面,右下角点添加。e24ad49755ce89f3b24c97326413b3b0.jpeg

规则类型选择修改请求头,匹配类型选正则表达式 ,规则为.*\.sinaimg.cn,头名称为referer,头内容为https://weibo.com2f0bea0e6a3f55e3ca043367090b6529.jpeg

然后在浏览器输入图片网址就可以访问了https://wx1.sinaimg.cn/oslarge/001U3j31ly1gnynq1xvcqj634022oqv502.jpg,除了编辑还可以导入规则,详情见 https://github.com/FirefoxBar/HeaderEditor4e31cd995edf3eed8cadaf5a6b6b1289.jpeg 修改微博图片地址就能查看无水印图片,比如李健这张微博图片,地址 https://wx1.sinaimg.cn/mw690/001U3j31ly1gnynq1xvcqj634022oqv502.jpgfbb7af35215c662cbc64ab545a3f39a8.jpeg

把mw690换成oslarge 就行了 https://wx1.sinaimg.cn/oslarge/001U3j31ly1gnynq1xvcqj634022oqv502.jpg97a4fbc97276e4e78e1827d15091c54a.jpeg对于半年可见的微博是看不到的,不过如果微博博主有百家号的话,百家号会同步所有微博,所以半年前的微博也可以看了,比如胡歌的这条微博 https://author.baidu.com/home/717c961845c598f41f5a49c41a9464f208.jpeg

微博最近还上线了访客记录 ,如果你是SVIP或VVIP会员,点进去可以看到昨日来访用户,也可以在我的访问页面管理自己的访问记录。

38d6279c53a29e3ec84dc32a8036418c.jpeg
 

由于本公众号苏生不惑后台设置的自动回复关键词数量到上限,以上部分脚本的下载地址请关注下方公众号玩转互联网达人在后台对话框回复 20231115 ,不是在本公众号后台对话框回复我建了个新号玩转互联网达人,之后发布的软件都在新号回复关键词获取

1032c660ec1dc0a77debd59b85a599ad.png

最新原创文章:

正式介绍下我的知识星球

2023 更新版:苏生不惑开发过的那些原创工具和脚本

再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数

微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具

2023 年数字图书馆 zlibrary 复活,新推出客户端人人可用

批量下载抖音视频,小红书视频,抓取抖音视频数据导出excel

如果文章对你有帮助还请 点赞/在看/分享 三连支持下, 感谢各位!

公众号苏生不惑

02e6f7e1797fe7cef3b42a090d8e0399.jpegd2d14e68dca6e4fbabea43e6c43f2911.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值