from urllib.request import Request,urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent
#导入相应的库文件
def get_html(url):
headers={
'User-Agent': UserAgent().chrome
}
#加入请求头
request = Request(url,headers=headers)
#请求网页
response = urlopen(request)
#返回内容
print(response.read().decode())
#打印内容
return response.read()
#重新读取内容
def save_html(filename,html_bytes):
#保存网页,文件名,html
with open("filename","wb") as f:
f.write(html_bytes)
def main():
content = input('请输入要下载的内容:')
num = input('请输入要下载多少页:')
base_url = 'http://tieba.baidu.com/f?ie=utf-8&{}'
#构造网页地址url
for pn in range(int(num)):
#循环定义页数
args = {
"pn":pn*50,
"kw":content
}
#贴吧url构造为前面的页号,再加搜索内容
filename = "第" + str(pn) + "页.html"
#给下载的页面起一个名字
args = urlencode(args)
print("正在下载" +filename)
html_bytes = get_html(base_url.format(args))
#网页url构造为前面的base_url,再加后面构造的页数,和搜索的东西
save_html(filename,html_bytes)
#保存新的网址url
if __name__=='__main__':
main()
#主程序入口