python微博爬取(仅供学习,其实也没啥学的....),输入检索词,保存为csv格式。

        本示例记录一下python爬取微博遇到的坑以及学到的东西。首先不得不承认pyquery在提取信息方便还是相当便捷的,尤其是本次提取文本信息时,相当给力。可能主要还是对各种解析库不熟练吧,遇到一个说一个好。唉.....

      遇到的第一个问题是url构造的问题,微博构造url还是比较简单的,在爬取搜索关键词后的信息时其url大致为

https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D1%26q%3D%25E4%25B8%258A%25E6%25B5%25B7&page_type=searchall&page=4

中间被变成URL编码的字符串为‘=1&q=关键词’。按道理来说也没有什么难度,但是刚开始我自作聪明,把这些都直接用字符串写了出来,关键词也用汉字写了出来,当请求时就会发现,得到的就不是自己想要的内容。因此:第一个坑就是要将构造的url的这一部分内容自己转码成URL编码格式,其大致方法为:

import    urllib.parse

S = 字符串

urllib.parse(S)

即可将S字符串的内容转换成URL编码格式。         

第二个问题,哦 ...... 第

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值