#正常的爬取一个商品的网页
import requests
url="https://item.jd.com/100005929301.html"
try:
r=requests.get(url) #获取url链接
r.raise_for_status() #requests里的一个函数,可以捕捉错误
r.encoding=r.apparent_encoding #赋值状态码
print(r.text[:10000])
except:
print("爬取失败")
#爬取亚马逊页面,访问错误时,添加的头部信息,模仿正常用户
import requests
url="https://www.amazon.cn/dp/B07KSBVKJ7?ref_=Oct_DLandingS_D_6f6a99b6_61&smid=A26HDXW89ZT98L"
hd={'user-agent':'Chrom/10'}
try:
r=requests.get(url,headers=hd)#添加头部信息
r.encoding=r.apparent_encoding
r.raise_for_status()
print(r.text)
except:
print("爬取失败")
print(r.status_code)
print(r.encoding)
print(r.headers)
#用程序向百度搜索引擎提交关键词,并返回结果(返回结果的长度)
import requests
keyword="python"
try:
kv={'wd':keyword} #wd是搜索百度引擎接口前的标识,360的为q
r=requests.get("http://www.baidu.com/s",params=kv)
r.encoding=r.apparent_encoding
r.raise_for_status()
print(len(r.text))
except:
print("爬取失败")
#爬取图片并保存的全代码
import requests
import os #Python的系统编程的操作模块,可以处理文件和目录这些我们日常手动需要做的操作
#图片的地址
url="https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1605201042825&di=4bacee1ecec6988fcbfad57debbfd488&imgtype=0&src=http%3A%2F%2Funion.china.com.cn%2Fcsmp%2Fimages%2Fattachement%2Fjpg%2Fsite355%2F20151030%2Fd02788e9b72b179d0eb73a.jpg"
#创建一个文件夹
root="D://pics//"
#图片的保存路径以及名字,且照片是以链接最后一个/后的内容命名的
path=root+url.split('/')[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(root):
r=requests.get(url)
with open(path,'wb') as f:
f.write(r.content)
f.close()
print("文件保存成功")
else:
print("文件已存在")
except:
print("爬取失败")
简单爬取网页实战1
最新推荐文章于 2024-04-15 18:24:54 发布