商品详情页爬虫练习

最新推荐文章于 2022-06-05 23:45:00 发布

Ambereyes

最新推荐文章于 2022-06-05 23:45:00 发布

阅读量391

点赞数 3

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_48563251/article/details/111179420

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

完全没有抗性，甚至不需要user—agent

import requests  #加载requests库
url="详情页网址"
try：
	r= requests.get(url)  #通过get获取信息
	r.raise_for_status()	#查看返回状态码信息，200就没事，其他会产生异常而报错
200
	r.encoding=r.apparent_encoding   #编码修改
	print(r)
except:
	print("爬取失败")

有一点点抗性,泛用性user-agent可以解决

url="网址"
try:
	kv={'user-agent':'Mozilla/5.0'}
	r=requests.get(url,headers=kv)
	r.raise_for_status()
	r.encoding=r.apparent_encoding
	print(r)
except:
	print("爬取失败")

搜索引擎代码

keyword="python"
try:
	kv={'wd':keyword}   #替换关键词接口
	r=requests.get("网址/s",params=kv)
	print(r.request.url)
	r.raise_for_status()
	print(r)
except:
	print("爬取失败")

图片爬取

improt os
url="图片网址（一般为jpg格式）"
root="保存地址"
path=root + url.split('/')[-1]#三张图片其中最后一张（可以任意调动）
try:
	if not os.path.exists(root):
		os.mkdir(root)
	if not os.path.exists(path):
		r=requests.get(url)
		with open(path,'wb') as f:
			f.write(r.content)
			f.close()
			print("文件保存成功"）
	else：
		print("文件保存失败")
except：
	print("爬取失败")

代理ip地址查询爬取

url="网址/ip.asp?ip="
try:
	r=requests.get(url+'202.204.80.112')
	r.raise_for_status()
	r.encoding=r.apparent_encoding
	print(r.text[-500:]）
except:
	print("爬取失败")

Ambereyes

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
商品详情页爬虫练习

商品详情页爬虫练习完全没有抗性，甚至不需要user—agentimport requests #加载requests库url="详情页网址"try： r= requests.get(url) #通过get获取信息 r.raise_for_status() #查看返回状态码信息，200就没事，其他会产生异常而报错200 r.encoding=r.apparent_encoding #编码修改 print(r)except: print("爬取失败")有一点点抗性,泛用性use
复制链接

扫一扫