爬取百度贴吧图片

本文介绍了如何使用Python在win7环境下,通过urllib和xpath等模块,爬取并保存百度贴吧特定页面的图片。主要涉及字典到字符串的编码转换以及字符串回转为字典的技巧。
摘要由CSDN通过智能技术生成

贴吧图片遍历

环境

系统:win7、python27、
工具:pycharm
Python模块:urllib、urllib2、xpath

需求

爬取任意贴吧指定页面的图片并保存的本地


需求分析

以李毅吧为例:
访问url地址:https://tieba.baidu.com/f?kw=%C0%EE%D2%E3&fr=ala0&tpl=5,后面的参数&fr=ala0&tpl=5去掉网页正常显示

url参数分析

1 将字典转换字符串编码
data = {
    'kw':'你好'
}
print urllib.urlencode(data)
2 将字符串转换为字典
url = 'https://tieba.baidu.com/f?kw=%C0%EE%D2%E3&fr=ala0&tpl=5'
result = urlparse.urlparse(url)
print result
print result.query

url页码分析

第一页:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=0
第二页:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=50
变化的地方pn值发生变化
pn=0
pn=50
pn=150
。。。。
帖子url
https://tieba.baidu.com/p/5273401714
https://tieba.baidu.com/p/5264181418
。。。。
使用xpath获
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值