python爬虫爬取淘女郎介绍以及照片

最新推荐文章于 2020-12-04 00:22:03 发布

理想主义文艺青年

最新推荐文章于 2020-12-04 00:22:03 发布

阅读量4.9k

点赞数 2

分类专栏： python学习

本文链接：https://blog.csdn.net/u011699990/article/details/47196887

版权

python学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

从https://mm.taobao.com/json/request_top_list.htm?page=1上爬取淘女郎的介绍和个人主页的照片

Spider.py

# __author__ = 'youngkl'
#_*_ coding:utf-8 _*_

import urllib
import urllib2
import re
import tool
import os


class Spider:
    def __init__(self):
        self.siteURL='http://mm.taobao.com/json/request_top_list.htm'
        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        #初始化headers
        self.headers = { 'User-Agent' : self.user_agent }
        self.tool=tool.Tool()

    def getPage(self,pageIndex):
        url=self.siteURL+"?page="+str(pageIndex)
        # print url
        request=urllib2.Request(url,headers=self.headers)
        response=urllib2.urlopen(request)
        return response.read().decode('gbk')

    def getContents(self,pageIndex):
        page=self.getPage(pageIndex)
        pattern=re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)".*?<img src="(.*?)".*?<a class="lady-name".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
        items=re.findall(pattern,page)
        contents=[]
        for item in items:
            contents.append([item[0],item[1],item[2],item[3],item[4]])
        return contents

    # 获取MM个人详情页面
    def getDetailPage(self,infoURL):
        # print u"infoURL  ",infoURL
        # response=urllib2.urlopen("http:"+infoURL)
        request=urllib2.Request("http:"+infoURL,headers=self.headers)
        response=urllib2.urlopen(request)
        # print response.read()
        return response.read().decode('gbk')

    # 获取个人文字简介
    def getBrief(self,page):
        pattern=re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
        result=re.search(pattern,page)
        return self.tool.replace(result.group(1))

    # 获取页面所有图片
    def getAllImg(self,page):
        # print page
        pattern=re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
        # 个人信息页面所有代码
        content=re.search(pattern,page)
        # 提取图片
        patternImg=re.compile('<img.*?src="(.*?)"',re.S)
        images=re.findall(patternImg,content.group(1))
        return images

    # 保存多张写真照片
    def saveImgs(self,images,name):
        # print u"images 2222222222222 ",images
        number=1
        print u"发现",name,u"共有",len(images),u"张照片"
        for imageURL in images:
            # print u"imageURL22222222222 ",imageURL
            splitPath=imageURL.split('.')
            fTail=splitPath.pop()
            if len(fTail)>3:
                fTail="jpg"
            fileName=name+"/"+str(number)+"."+fTail
            self.saveImg(imageURL,fileName)
            number+=1

    # 保存头像
    def saveIcon(self,iconURL,name):
        splitPath=iconURL.split('.')
        fTail=splitPath.pop()
        fileName=name+"/icon."+fTail
        self.saveImg(iconURL,fileName)

    # 保存个人简介
    def saveBrief(self,content,name):
        fileName=name+"/"+name+".txt"
        f=open(fileName,"w+")
        # 以读写模式打开
        print u"正在偷偷保存她的个人信息为",fileName
        f.write(content.encode('gbk'))

    # 传入图片地址 文件名 保存单张图片
    def saveImg(self,imageURL,fileName):
        # print "imageURL  ",imageURL
        # print u"filename   ",fileName
        u=urllib.urlopen("http:"+imageURL)
        # print u"hahahaha  "
        data=u.read()
        # print u"data   ",data
        f=open(fileName,"wb")
        # 以二进制模式打开
        f.write(data)
        print u"正在悄悄保存他的一张图片为",fileName
        f.close()

    # 创建新目录
    def mkdir(self,path):
        path=path.strip()
        # 判断路径是否存在  存在为真
        isExists=os.path.exists(path)
        if not isExists:
            # 如果不存在则创建目录
            print u"偷偷新建了名字叫做",path,u'的文件夹'
            # 创建目录操作函数
            os.makedirs(path)
            return True
        else:
            # 如果目录存在则不创建 并提示目录已存在
            print u"名为",path,u'的文件夹已经创建成功'
            return False

    # 将一页淘女郎的信息保存起来
    def savePageInfo(self,pageIndex):
        # 获取第一特淘女郎列表
        contents=self.getContents(pageIndex)
        for item in contents:
            # item[0]个人详情URL item[1]头像URL item[2]姓名 item[3]年龄 item[4]居住地
            print u"发现一名模特，名字叫",item[2],u"芳龄",item[3],u",她在",item[4]
            print u"正在偷偷的保存",item[2],u"的信息"
            print u"她的个人地址是",item[0]
            # 个人详情页面代码
            detailURL=item[0]
            detailPage=self.getDetailPage(detailURL)
            # print detailPage
            brief=self.getBrief(detailPage)
            images=self.getAllImg(detailPage)
            # print u"images    ",images
            self.mkdir(item[2])
            self.saveBrief(brief,item[2])
            print  u"item[1]  iconURL  ",item[1]
            self.saveIcon(item[1],item[2])
            self.saveImgs(images,item[2])

    # 传入起止页码 获取MM图片
    def savePagesInfo(self,start,end):
        for i in range(start,end+1):
            print u"正在偷偷寻找第",i,u"个地方，看看MM在不在"
            self.savePageInfo(i)

spi=Spider()
spi.savePagesInfo(1,10)

tool.py 去除一些标签

#-*- coding:utf-8 -*-
import re
 
#处理页面标签类
class Tool:
    #去除img标签,1-7位空格, 
    removeImg = re.compile('<img.*?>| {1,7}| ')
    #删除超链接标签
    removeAddr = re.compile('<a.*?>|</a>')
    #把换行的标签换为\n
    replaceLine = re.compile('<tr>|<div>|</div>|</p>')
    #将表格制表<td>替换为\t
    replaceTD= re.compile('<td>')
    #将换行符或双换行符替换为\n
    replaceBR = re.compile('<br><br>|<br>')
    #将其余标签剔除
    removeExtraTag = re.compile('<.*?>')
    #将多行空行删除
    removeNoneLine = re.compile('\n+')
    def replace(self,x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceLine,"\n",x)
        x = re.sub(self.replaceTD,"\t",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        x = re.sub(self.removeNoneLine,"\n",x)
        #strip()将前后多余内容删除
        return x.strip()