一、使用request库获取京东商品的页面信息
# 获取京东商品信息
import requests
url = 'https://item.jd.com/100006708006.html'
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print('爬取失败!')
二、亚马逊商品的爬取,更换头部信息
url1 = 'https://www.amazon.cn/dp/B01MYWGSG2'
try:
# 网页有浏览器标识限制,所以更换头部信息
kv = {'User-Agent': 'Mozilla/5.0'}
r = requests.get(url1, headers=kv)
r.encoding = r.apparent_encoding
print(len(r.text))
except:
print('爬取失败!')
三、通过request库提交搜索关键词
# 搜索引擎关键词提交
keyword = 'Python'
try:
kv = {'wd':keyword}
r = requests.get('http://www.baidu.com/s', params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except:
print('爬取失败!')
四、网络图片的爬取,需要先导入一个Path库(目录处理库)
# 网络图片的爬取
from pathlib import Path
url2 = 'http://image.ngchina.com.cn/2019/1204/20191204034236499.jpeg'
path = '/Users/qiandu/Python Project/'
# 新建一个文件夹目录
save_path = Path(path).joinpath('image file')
save_path.mkdir(mode=0o777, exist_ok=True)
# 获取文件名,包括文件格式(.jpeg)
file_name = url2.split('/')[-1]
r = requests.get(url2)
try:
# 打开/新建一个文件
with open(str(save_path/file_name), 'wb') as f:
f.write(r.content)
f.close()
print('文件保存成功!')
except:
print('爬取失败!')