import requests
#获取网页内容
def get_page(url,params):
#请求头用来表示用户身份的(像上学期的那个就会遇到404的那种情况这里可以解决)
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'}
proxy = { 'http': 'http://222.95.241.243:3000'}
try:
r=requests.get(url,params=params,headers=headers,proxies=proxy)
r.raise_for_status()#异常处理,200则为正常
r.encoding='utf-8'#从服务器返回的网页内容猜测编码方式,但是可以查,一般为utf-8
print(r.url)
return r.text
except:
return ""
#保存网页
def save_page(html,filename):
with open(filename,'w',encoding='utf-8') as f:
f.write(html)
print(filename+'保存成功!')
if __name__ == '__main__':
keyword=input("请输入要爬取的主题名:")
begin=int(input("请输入起始页:"))
end=int(input("请输入结束页:"))
url='https://search.jd.com/Search'
for i in range(begin,end+1):
params={
'keyword':keyword,
'enc':'utf-8',
'wq':'耳机',
'page':2*i-1,
's':60*(i-1)+1
}
html=get_page(url,params)
filename="G:/a大二第二学期/数据采集与预处理/作业/京东"+'第{}页.html'.format(i)
save_page(html,filename)
获取京东页面(txt和html)
最新推荐文章于 2021-06-28 10:59:51 发布