网络爬虫的尺寸:
1、爬取网页,玩转网页即可 使用Request 库 》90%
2、爬取网站,系列网站 使用Scrapy库
3、爬取整个internet网站
更改头部信息:
1、模拟一个键值对,
kv={'useragent':'Mozilla/5.0'}
r=requests.get(url,headers=kv)
import requests
url = ''
try:
kv={'useragent':'Mozilla/5.0'}
r=requests.get(url,headers=kv)
图片爬取代码:
import requests
import os
url = 's'
root = '/home/rym'
path = root+url.split('/')[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r=requests.get(url)
with open(path,'wb') as f:
f.write(r.content)
f.close()
print('文件保存成功')
else:
print('文件已存在')
except:
print('爬取失败')