python微博爬取（仅供学习，其实也没啥学的....），输入检索词，保存为csv格式。

置顶

VIP文章 hello,code

于 2020-07-16 16:45:14 发布

阅读量659

点赞数 1

分类专栏：爬虫文章标签：乱码 python json csv

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linershigebaobao/article/details/107385482

版权

本示例记录一下python爬取微博遇到的坑以及学到的东西。首先不得不承认pyquery在提取信息方便还是相当便捷的，尤其是本次提取文本信息时，相当给力。可能主要还是对各种解析库不熟练吧，遇到一个说一个好。唉.....

遇到的第一个问题是url构造的问题，微博构造url还是比较简单的，在爬取搜索关键词后的信息时其url大致为

https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D1%26q%3D%25E4%25B8%258A%25E6%25B5%25B7&page_type=searchall&page=4

中间被变成URL编码的字符串为‘=1&q=关键词’。按道理来说也没有什么难度，但是刚开始我自作聪明，把这些都直接用字符串写了出来，关键词也用汉字写了出来，当请求时就会发现，得到的就不是自己想要的内容。因此：第一个坑就是要将构造的url的这一部分内容自己转码成URL编码格式，其大致方法为：

import urllib.parse

S = 字符串

urllib.parse(S)

即可将S字符串的内容转换成URL编码格式。

第二个问题，哦 ...... 第

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
python微博爬取（仅供学习，其实也没啥学的....），输入检索词，保存为csv格式。

本示例记录一下python爬取微博遇到的坑以及学到的东西。首先不得不承认pyquery在提取信息方便还是相当便捷的，尤其是本次提取文本信息时，相当给力。可能主要还是对各种选择器不熟练吧，遇到一个说一个好。唉..... 遇到的第一个问题是url构造的问题，微博构造url还是比较简单的，在爬取搜索关键词后的信息时其url大致为https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D1%26q%3D%2...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。