爬取虎牙主播图片

最新推荐文章于 2021-12-07 19:34:13 发布

InfI1traTe.

最新推荐文章于 2021-12-07 19:34:13 发布

阅读量997

点赞数

文章标签： python pycharm 爬虫

本文链接：https://blog.csdn.net/m0_55313512/article/details/121709632

版权

该博客介绍了如何利用Python第三方库requests和lxml从虎牙直播网站抓取指定频道下的主播图片。首先安装requests和lxml库，然后通过requests.get()获取网页内容，使用lxml的HTML解析功能筛选出图片元素。接着，遍历每个图片元素，提取图片链接和主播名称，最后将图片下载到本地。这是一个基础的网络爬虫示例。

摘要由CSDN通过智能技术生成

本例中使用第三方库requests、lxml

在命令行中输入

pip/pip3 install requests
pip/pip3 install lxml

如下图所示

本次实例比较简单注释中每一步写的也很详细所以我们直接上代码

demo.py

import requests
from lxml import etree

# 找到抓取目标的所在位置   知道网址
url = 'https://www.huya.com/g/4079'

# 从网址中抓取
response = requests.get(url)
# print(response.text)

# 对得到的数据进行筛选工作
html = etree.HTML(response.text)   # 打包代码
# print(html)
image_list = html.xpath('//img[@class="pic"]')   # 得到所有图片的标签
# print(image_list)

# 把一组标签拆分为单个标签
for image_data in image_list:
    image_url = image_data.xpath('./@data-original')[0]     # 从单个标签中抽取出图片链接
    image_url = image_url.split('?')[0]     # 剪掉链接中？后面的所有数据
    # print(image_url)
    image_name= image_data.xpath('./@alt')[0]      # 获取主播名字的文字信息

    # 把图片数据保存到电脑上 文件操作
    image = requests.get(image_url)     # 请求图片数据内容

    with open('./%s.jpg' % image_name, 'wb') as file:      # 创建一个空白的图片文件
        file.write(image.content)      # 向空白的图片文件里写入得到的图片数据

    print(' 《%s》 下载成功！' % image_name)

在这里提醒我们的男同胞们注意身体哦！！！