贴吧图片遍历
环境
系统:win7、python27、
工具:pycharm
Python模块:urllib、urllib2、xpath
需求
爬取任意贴吧指定页面的图片并保存的本地
需求分析
以李毅吧为例:
访问url地址:https://tieba.baidu.com/f?kw=%C0%EE%D2%E3&fr=ala0&tpl=5,后面的参数&fr=ala0&tpl=5去掉网页正常显示
url参数分析
1 将字典转换字符串编码
data = { 'kw':'你好' } print urllib.urlencode(data)
2 将字符串转换为字典
url = 'https://tieba.baidu.com/f?kw=%C0%EE%D2%E3&fr=ala0&tpl=5' result = urlparse.urlparse(url) print result print result.queryurl页码分析
第一页:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=0第二页:https://tieba.baidu.com/f?kw=%E6%9D%8E%E6%AF%85&ie=utf-8&pn=50变化的地方pn值发生变化pn=0pn=50pn=150。。。。帖子url
https://tieba.baidu.com/p/5273401714
https://tieba.baidu.com/p/5264181418
。。。。使用xpath获