python 爬虫 抓取网站img图片

本文介绍了使用Python进行网页图片抓取的基本步骤和常见技巧,包括设置请求头、解析HTML获取图片链接、下载保存图片,并探讨了如何处理反爬虫策略及图片验证码的应对方法。

from getHtml import getHtmlWinthIp
from getHtml import  getHtml
from bs4 import BeautifulSoup
from urllib import request#为了存储
import os #为了创建文件夹
imgsrcl = []
def getD(url,no):
    html = getHtmlWinthIp(url)

    soup = BeautifulSoup(html,'html.parser')

    #寻找parent
    parent = soup.find(id='content').find('ul')
    #找到所有的li

    lis = parent.find_all('li',limit=no)

    #新建列表存储所有的src

    for each in lis:
        #each.find('img').attrs这是所有img的属性组成的字典
        src = each.find('img').attrs['src']#读取字典的src
        imgsrcl.append(src)#添加到总的列表


    # os.mkdir()#创建文件夹
    # os.chdir()#改变文件路径
    # os.path.exists()#判断是否已经存在某文件夹
    
def store():
    if os.path.exists('范冰冰2'):
        os.chdir('范冰冰2')
    else:
        os.mkdir('范冰冰2')
        os.chdir('范冰冰2')
        
    # 存储
    for i, v in enumerate(imgsrcl):
        request.urlretrieve(v, str(i + 1) + '.jpg')
def main(n):
    for index in range(30,n+31,30) :
        url = 'https://movie.douban.com/celebrity/1050059/photos/
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值