获取京东页面(txt和html)

import requests
#获取网页内容
def get_page(url,params):
    #请求头用来表示用户身份的(像上学期的那个就会遇到404的那种情况这里可以解决)
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
    proxy = { 'http': 'http://222.95.241.243:3000'}
    try:
        r=requests.get(url,params=params,headers=headers,proxies=proxy)
        r.raise_for_status()#异常处理,200则为正常
        r.encoding='utf-8'#从服务器返回的网页内容猜测编码方式,但是可以查,一般为utf-8
        print(r.url)
        return r.text
    except:
        return ""
#保存网页
def save_page(html,filename):
    with open(filename,'w',encoding='utf-8') as f:
        f.write(html)
    print(filename+'保存成功!') 
if __name__ == '__main__':
    keyword=input("请输入要爬取的主题名:")
    begin=int(input("请输入起始页:"))
    end=int(input("请输入结束页:"))
    url='https://search.jd.com/Search'
    for i in range(begin,end+1):
        params={
            'keyword':keyword,
             'enc':'utf-8',
             'wq':'耳机',
            'page':2*i-1,
            's':60*(i-1)+1
        }
        html=get_page(url,params)
        filename="G:/a大二第二学期/数据采集与预处理/作业/京东"+'第{}页.html'.format(i)
        save_page(html,filename)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值