1.网页信息爬取
import requests
try:
kv={'user-agent': 'Mozilla/5.0'}
url='http://www.baidu.com/'
r=requests.get(url,headers=kv)
r.raise_for_status()
r.encoding=r.apparent_encoding
print(r.text[:500])
except:
print("爬取失败")
2.百度搜索关键字提交
由于百度搜索的关键字接口为http://www.baidu.com/s?wd=keyword
import requests
try:
kv1={'wd:':'python'} #搜索python
kv2={'user-agent': 'Mozilla/5.0'}
url='http://www.baidu.com/s'
r=requests.get(url,params=kv1,headers=kv2)
r.raise_for_status()
r.encoding=r.apparent_encoding
print(r.text[1000:5000])
print(len(r.text))
except:
print("爬取失败")
3.网络图片爬取
import requests
import os
kv2={'user-agent': 'Mozilla/5.0'}
url='http://pic28.photophoto.cn/20130818/0020033143720852_b.jpg'
root='D://pic//'
path=root+url.split('/')[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r=requests.get(url,headers=kv2)
r.raise_for_status()
r.encoding=r.apparent_encoding
with open(path,'wb')as f:
f.write(r.content)
f.close()
print('文件已保存')
else:
print('文件已存在')
except:
print("爬取失败")