本示例记录一下python爬取微博遇到的坑以及学到的东西。首先不得不承认pyquery在提取信息方便还是相当便捷的,尤其是本次提取文本信息时,相当给力。可能主要还是对各种解析库不熟练吧,遇到一个说一个好。唉.....
遇到的第一个问题是url构造的问题,微博构造url还是比较简单的,在爬取搜索关键词后的信息时其url大致为
中间被变成URL编码的字符串为‘=1&q=关键词’。按道理来说也没有什么难度,但是刚开始我自作聪明,把这些都直接用字符串写了出来,关键词也用汉字写了出来,当请求时就会发现,得到的就不是自己想要的内容。因此:第一个坑就是要将构造的url的这一部分内容自己转码成URL编码格式,其大致方法为:
import urllib.parse
S = 字符串
urllib.parse(S)
即可将S字符串的内容转换成URL编码格式。
第二个问题,哦 ...... 第