Python爬取百度贴吧

weixin_33860553

于 2018-03-26 20:57:00 发布

阅读量88

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/w-zc/p/8653784.html

版权

from urllib import request,parse
import os

#找到借口及关键字
base_url = 'http://tieba.baidu.com/f?'
a = input("贴吧")
start = input("开始页")
end = input("结束页")
#创建文件路径
if not os.path.exists(a):
    os.mkdir(a)
qs = {
    "kw":a
}
#将qs转变为电脑识别的语言
qs = parse.urlencode(qs)
for page in range(int(start),int(end)+1):
    pn = (page-1)*50
　　#拼接成贴吧接口
    url = base_url+qs+'&pn='+str(pn)
    print("downing...第%d页"%page)
    response = request.urlopen(url)
    html = response.read().decode("utf-8")
    with open(a+'/'+str(page)+'.html','w',encoding="utf-8") as f:
        f.write(html)
print("下载完成")

#好了再你的ide环境下运行下就可以随便找到你想要的帖子了