图片爬取，乱码处理，随机睡眠（包含惊喜）

最新推荐文章于 2024-05-24 09:16:22 发布

聆听我的召唤，菜鸟进化

最新推荐文章于 2024-05-24 09:16:22 发布

阅读量99

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_45889931/article/details/119917983

版权

爬虫专栏收录该内容

23 篇文章 0 订阅

订阅专栏

进入网站，各种图片自己根据爱好选取

import requests
from lxml import etree
import os
import random
import time
from fake_useragent import UserAgent
headers={
            'User-Agent':UserAgent().random
        }
for i in range(1,40):
    url = 'https://pic.netbian.com/4kmeinv/index_{}.html'.format(i)
    response = requests.get(url=url,headers=headers)
    
    #手动设定响应数据的编码格式
    # response.encoding = 'utf-8'
    page_text = response.text
    
    #数据解析：src的属性值  alt属性
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//*[@id="main"]/div[3]/ul/li')
    
    
    #创建一个文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')
    
    for li in li_list:
        img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
        #通用处理中文乱码的解决方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')
    
        # print(img_name,img_src)
        #请求图片进行持久化存储
        img_data = requests.get(url=img_src,headers=headers).content
        img_path = 'picLibs/'+img_name
        time.sleep(float(format(random.uniform(0,1), '.2f')))
        #random.uniform(0, 0.5)
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功！！！')

聆听我的召唤，菜鸟进化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
图片爬取，乱码处理，随机睡眠（包含惊喜）

进入网站，各种图片自己根据爱好选取import requestsfrom lxml import etreeimport osimport randomimport timefrom fake_useragent import UserAgentheaders={ 'User-Agent':UserAgent().random }for i in range(1,40): url = 'https://pic.netbian.com/4kmei
复制链接

扫一扫