贴吧图片遍历
环境
系统:win7、python27、
工具:pycharm
Python模块:urllib、urllib2、xpath
需求
爬取任意贴吧指定页面的图片并保存的本地
需求分析
以李毅吧为例:
访问url地址:https://tieba.baidu.com/f?kw=%C0%EE%D2%E3&fr=ala0&tpl=5,后面的参数&fr=ala0&tpl=5去掉网页正常显示
url参数分析
1 将字典转换字符串编码
data = { 'kw':'你好' } print urllib.urlencode(data)
2 将字符串转换为字典
url = 'https://tieba.baidu.com/f?kw=%C0%EE%D2%E3&fr=ala0&tpl=5' result = urlparse.urlparse(url) print result print result.queryurl页码分析
第一页:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=0第二页:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=50变化的地方pn值发生变化pn=0pn=50pn=150。。。。帖子url
https://tieba.baidu.com/p/5273401714
https://tieba.baidu.com/p/5264181418
。。。。使用xpath获

本文介绍了如何使用Python在win7环境下,通过urllib和xpath等模块,爬取并保存百度贴吧特定页面的图片。主要涉及字典到字符串的编码转换以及字符串回转为字典的技巧。
最低0.47元/天 解锁文章
1948

被折叠的 条评论
为什么被折叠?



