python 爬取妹子图片,并用文件夹分类管理

主要是用了bs4 模块,进行了爬取。
纯自学,有很多不足的还请指正。

# -*- coding:utf-8 -*-
# 爬取妹子图
# url:https://www.zhaimankan.com/mianfei/meizitu/page/1

import requests
from bs4 import BeautifulSoup
import os




def geturl(url):
    headers = {
                'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/78.0.3904.108 Safari/537.36"
                }
    r = requests.get(url=url, headers=headers, timeout=10)
    r.encoding = 'utf-8'
    # print(r.status_code)  检测响应值
    if r.status_code == 200:
        return r.text
    else:
        print('地址连接不成功。错误码{}'.format(r.status_code))



def save_jpg (main_title,main_url):
    path = "F:\\妹子图\\{}".format(main_title)
    folder = os.path.exists(path)
    if not folder:
        os.makedirs(path)
        print('文件夹创建完成%s' % path)
    else:
        print("文件夹已经存在")
    soup = BeautifulSoup(geturl(main_url), 'lxml')
    img_url_list = soup.find_all('img', attrs={'loading': 'lazy'})
    count = 1
    for img_url in img_url_list:
        img_src = img_url['src']
        p = requests.get(img_src)
        with open(path+'\\%s' % str(count)+'.jpg', 'wb')as f:
            f.write(p.content)
            f.close()
            count = count + 1
    print('图片保存完成。')


def allurl():
    page = int(input('请输入你所需要爬取的页数:\n'))
    for i in range(0,page):
        url = 'https://www.zhaimankan.com/mianfei/meizitu/page/{}'.format(i)
        # print(geturl(url))
        s = BeautifulSoup(geturl(url),'lxml')
        i_list =s.find_all('a',attrs={'class':'meta-title'})
        # print(i_list)
        for a in i_list:
            main_url = a['href']    #获取图片链接
            main_title = a.string[5:-8]   #获取标题
            save_jpg (main_title,main_url)

if __name__ == '__main__':
    allurl()



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值