python爬虫05

# encoding: utf-8
#加载bs4、re正则、random随机数、pymssql数据库
from bs4 import BeautifulSoup
import re
import random
import pymssql
import urllib2
import os
import re
import requests
import time

'''
写这个程序的思路:
1:首先获取首页妹子的详情页的连接
 1.1:因为是多个妹子,所以要用到list存储
2:获取妹子详情页里面的图片连接
 2.1:妹子也很多的,但是每个妹子的图片连接规则都是一样的,所以要用while循环下
3:获取了妹子图片连接,穿给下载的函数

4:搞一个下载函数进行图片下载并且保存
'''


#定制一个headers相应头
# 定制响应头
Headers = {
    'Accept-Encoding': r'gzip, deflate',
    'Accept-Language': r'zh-CN,zh;q=0.8',
    'Cache-Control': r'max-age=0',
    'DNT': r'1',
    'Referer': '',
    'Upgrade-Insecure-Requests': r'1',
    'Proxy-Connection': r'keep-alive',
    'Host': r'i.meizitu.net',
    'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36 OPR/47.0.2631.39'
}
#保存图片的方法,接受三个产品,url:妹子的图片地址 2:图片的名字 3:headers头
def get_img(url,filename,headers):
    #join用处很广泛,拼接路径
    imgpath = os.path.join(path,filename)
    #print imgpath
    print os.path.dirname(imgpath)
    #print imgpath
    #判断imgpath文件路径是否存在
    # 如果exists为trun和getsiz也为turn说明文件是存在的,那么就直接返回,exists是检查文件路径是否存在,getsize是检查文件大小
    if os.path.exists(imgpath) and os.path.getsize(imgpath) > 10000:
        a = '文件已经存在,不用重新下载'
        return a
    else:
        # 判断是否存在文件夹
        if not os.path.exists(os.path.dirname(imgpath)):
            # 如果不存在,那么就创建文件夹
            os.makedirs(os.path.dirname(imgpath))
    while True:
        try:
            # 获取图片的二进制
            image = requests.get(url,headers=headers).content
            #with好处是自带了close功能,不用每次还得记得去关闭
            with open(imgpath,'wb') as jpg:
                #写入获取到的二进制到图片
                jpg.write(image)
        except requests.Timeout:
            #如果超时了,2秒之后再次去搞这事
            time.sleep(2)
            continue
        #如果文件存在,返回break
        if os.path.getsize(imgpath) > 10000:
            break
        else:
        #如果文件不存在,那么3秒之后再次执行
            time.sleep(3)
#获取妹子们的套图
def get_img_url(url):
    while True:
        try:
            img_url = requests.get(url)
        except Exception:#捕获异常抛出
            time.sleep(2)
        text = BeautifulSoup(img_url.text,'html.parser')
        #把所有的href跑出来
        href = text.find( 'a',href = re.compile("http://www.mzitu.com/[0-9]+"))
        #print href
        #print href['href']
        try:
            #获取妹子套图的url地址
            result = href.find('img').attrs['src']
            #print result
            break
            #print result
        except AttributeError:
            pass
        #存储图片
    try:
        #print url
        #url = 'http://www.mzitu.com/99666/2'
        #对url进行分割,好进行设置路径
        name = url.split('/')
        #print name
        #join进行拼接
        file_name = os.path.join(name[3], name[4] + '.jpg')
        print file_name
        #print file_name
    except IndexError:
        file_name = os.path.join(name[3] + '.jpg')
        print file_name
    finally:
        #这点注意,这个首先是把headers里面的referer进行改变,因为做了反爬虫策略
        Headers['Referer'] = url
        #保存图片,把url、名字、headers穿如到get_img函数
        get_img(result,file_name,Headers)
    #p判断是否是最后一张
    #re.match 函数,是检查两个url是否相等,如果相等,就把相似的返回出来,这里可以明显的看出来,如果有下一页,那么就会把下一页的地址返回出来,完成了下一页的功能
    if re.match("http://www.mzitu.com/[0-9]+/[0-9]+", href['href']):
        #递归循环,如果发现还有下一页,那么再调用自己的函数
        get_img_url(href.attrs['href'])
    else:
        #如果最后一页了,就返回1
        print ('\n')
        return 1







#从首页开始去妹子的详情页的url
def get_index(url):
    index_url = requests.get(url)
    text = BeautifulSoup(index_url.text,'html.parser')
    #正则表达式,符合条件的标签
    meizi_url = text.find_all(href=re.compile('http://www.mzitu.com/[0-9]+'))
    #去出href的连接并存到一个list里面
    meizi_list = [a['href'] for a in meizi_url]
    #返回这个list
    print meizi_list

#初始化基础数据
url = 'http://www.mzitu.com'
#os.path的join方法,是把路径进行拼接,getcwd是获取当前路径,然后这句话返回的是你的路径+meizu
path = os.path.join(os.getcwd(),'meizu')
# for i in  get_index(url):
#     print ('======================================')
#     get_img_url(i)
#为了测试逻辑搞一个测试的
get_img_url('http://www.mzitu.com/99666')
 
 
 
 
注释写的很明白,代码也很好理解,如果某一个方法不明白,google下这个函数的用法,就明白了。对了,函数就是方法,方法就是函数
 
 
下步任务:1:增加多线程功能 2:使用面相对象开发方式来做


1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看READme.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 、 1资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看READmE.文件(md如有),本项目仅用作交流学习参考,请切勿用于商业用途。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

m0_37204377

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值