紧接着上文,我给大家讲解了requests库的一些用法,接下来我们在实例中使用这些用法
一,当爬虫的请求被一些网站驳回,使得爬虫无法爬取时,我们可以将自己伪装成为一个浏览器对它进行访问
import requests
KV={'User-Agent':'mozilla/5.0'}
r=requests.get(url,headers=kv)
r.encoding=r.apparent_encoding
print(r.text)
只需要将头部信息之中的请求者信息更改即可
二,精选信息,提取信息
import requests
kv={'wd':'python'}
try:
r=requests.get("http://www.baidu.com/",params=kv)
print(r.status_code)
print(r.requests.url)
print(r.text)
except:
print("爬取失败")
在打印让他的url后会发现变成了“hettp://www.baidu.com/?wd=python”
wd是搜索目标前面标识的值,python则是搜索的内容,每一个网站的搜索标识符都不一样,我们可以通过搜索一个东西,观察他的网址来得到。
三,对于图片,视频的爬取和存储
第一步,找到图片,视频的网络地址比如是url
#图片的格式一般是二进制
import requests
path="D:/abc.jpg"
r=requests.get(url)
print(r.status_code)
with open(path,'wb')as f:
f.write(r.content)
这一系列操作完成后,你就可以进入你的D盘去寻找你的照片了
接下来给大家一个保姆级别的代码
import requests
import os
root="D://pics//"
path=root+url.url.split('1')[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r=requests.get(url)
with open(path,'wb')as f:
f.write(r.content)
print("文件保存成功")
else:
print("文件已存在")
except:
print("出现错误")
这其中的os.mkdir()方法就是创建目录的方法
eg:os.mkdir(D:/hello)
os.mkdir(D:/hello/hi)
一层一层创建目录。
四,IP地址归属的查询
requests requests
url="hettp://m.ip138.com/ip.sap?ip="
r=requests.get(url+'202.204.80.112')
r.status_code
print(r.text)
·注意:网络不是法外之地,爬虫也不是牟利工具,正确运用爬虫知识。