本例中使用第三方库requests、lxml
在命令行中输入
pip/pip3 install requests
pip/pip3 install lxml
如下图所示
本次实例比较简单 注释中每一步写的也很详细 所以我们直接上代码
demo.py
import requests
from lxml import etree
# 找到抓取目标的所在位置 知道网址
url = 'https://www.huya.com/g/4079'
# 从网址中抓取
response = requests.get(url)
# print(response.text)
# 对得到的数据进行筛选工作
html = etree.HTML(response.text) # 打包代码
# print(html)
image_list = html.xpath('//img[@class="pic"]') # 得到所有图片的标签
# print(image_list)
# 把一组标签拆分为单个标签
for image_data in image_list:
image_url = image_data.xpath('./@data-original')[0] # 从单个标签中抽取出图片链接
image_url = image_url.split('?')[0] # 剪掉链接中?后面的所有数据
# print(image_url)
image_name= image_data.xpath('./@alt')[0] # 获取主播名字的文字信息
# 把图片数据保存到电脑上 文件操作
image = requests.get(image_url) # 请求图片数据内容
with open('./%s.jpg' % image_name, 'wb') as file: # 创建一个空白的图片文件
file.write(image.content) # 向空白的图片文件里写入得到的图片数据
print(' 《%s》 下载成功!' % image_name)
在这里提醒我们的男同胞们注意身体哦!!!