获取京东页面（txt和html）

最新推荐文章于 2021-06-28 10:59:51 发布

易烊千玺的程序猫

最新推荐文章于 2021-06-28 10:59:51 发布

阅读量380

点赞数 1

文章标签： url python 大数据

本文链接：https://blog.csdn.net/qq_46300780/article/details/104828777

版权

import requests
#获取网页内容
def get_page(url,params):
    #请求头用来表示用户身份的（像上学期的那个就会遇到404的那种情况这里可以解决）
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
    proxy = { 'http': 'http://222.95.241.243:3000'}
    try:
        r=requests.get(url,params=params,headers=headers,proxies=proxy)
        r.raise_for_status()#异常处理，200则为正常
        r.encoding='utf-8'#从服务器返回的网页内容猜测编码方式，但是可以查，一般为utf-8
        print(r.url)
        return r.text
    except:
        return ""
#保存网页
def save_page(html,filename):
    with open(filename,'w',encoding='utf-8') as f:
        f.write(html)
    print(filename+'保存成功!') 
if __name__ == '__main__':
    keyword=input("请输入要爬取的主题名：")
    begin=int(input("请输入起始页："))
    end=int(input("请输入结束页："))
    url='https://search.jd.com/Search'
    for i in range(begin,end+1):
        params={
            'keyword':keyword,
             'enc':'utf-8',
             'wq':'耳机',
            'page':2*i-1,
            's':60*(i-1)+1
        }
        html=get_page(url,params)
        filename="G:/a大二第二学期/数据采集与预处理/作业/京东"+'第{}页.html'.format(i)
        save_page(html,filename)