python空间相册爬虫_淘女郎相册爬虫（Python编写）

最新推荐文章于 2022-09-14 23:44:21 发布

weixin_39596739

最新推荐文章于 2022-09-14 23:44:21 发布

阅读量125

点赞数

文章标签： python空间相册爬虫

#*-* coding:utf-8 *-*

__author__ = 'YS'

importurllib2importurllibimportreimportjsonimportosimporttime#抓取淘女郎的图片,淘女郎地址:https://mm.taobao.com/search_tstar_model.htm?spm=5679.126488.640745.2.22495f9f1lYEAb

classMMSpider:def __init__(self, timeout=3, albumLimit=200, picLimit=500, sleepPicCount=100, savePath='pythonspider/'):

self.__headers ={'User-Agent':'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}#抓取时间超时设置

self.timeout =timeout#抓取的相册个数限制

self.albumLimit =albumLimit#获取MM列表的地址

self.__mmListUrl = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'

#获取相册列表的地址

self.__albumListUrl = 'https://mm.taobao.com/self/album/open_album_list.htm?_charset=utf-8&user_id%20=:userId&page=:page'

#获取相册具体相片的地址

self.__albumDetailUrl = 'https://mm.taobao.com/album/json/get_album_photo_list.htm?user_id=:userId&album_id=:albumId&page=:page'

#MM详情页面地址

self.__personUrl = 'https://mm.taobao.com/self/aiShow.htm?userId=:userId'

#抓取的文件存放路径

self.savePath =savePath#每个MM的照片最多抓多少张

self.picLimit =picLimit#抓取多少张图片时休息1秒

self.sleepPicCount =sleepPicCount

self.__mkdir(self.savePath)#获取页面内容,python中的异常继承关系: https://docs.python.org/3/library/exceptions.html#exception-hierarchy

def __getContents(self, url, data=None, encoding=None, isjson=None):try:

request= urllib2.Request(url, data, self.__headers)

response= urllib2.urlopen(request, timeout=self.timeout)ifencoding:

contents= response.read().decode(encoding).encode('utf-8')else:

contents=response.read()return json.loads(contents,encoding='utf-8') if isjson elsecontentsexcepturllib2.URLError,e:print '出错了' +e.reasonreturnNoneexceptBaseException,e:print '其他错误'

printe.argsreturnNone#获取MM列表

def __getMMList(self, pageIndex):

url= self.__mmListUrldata=urllib.urlencode({'currentPage':pageIndex,'pageSize':50})

list= self.__getContents(url, data, encoding='gbk', isjson=True)if list isNone:returnNoneelif list['status'] != 1:returnNonereturn list['data']['searchDOList']#获取相册列表

def __getAlbumList(self, mm):

albumList=[]

baseUrl= self.__albumListUrl.replace(':userId',str(mm['userId']))

indexUrl= baseUrl.replace(':page','1')

pageCount= int(self.__getAlbumListPage(indexUrl))

pageCount= pageCount if pageCount<=self.albumLimit elseself.albumLimitfor i in range(1, pageCount+1):

listUrl= baseUrl.replace(':page', str(i))

contents= self.__getContents(listUrl)if (contents isNone):continuepattern= re.compile('

def __getPicPage(self, indexUrl):

albuminfo= self.__getContents(indexUrl, encoding='gbk', isjson=True)if albuminfo isNone:print '获取相册照片失败0，照片地址：'+indexUrlreturnNoneif albuminfo['isError'] != '0':print '获取相册照片失败1，照片地址：'+indexUrlreturnNone

totalPage= int(albuminfo['totalPage'])returntotalPage#下载保存单个相册的照片,album表示相册id

def __savePics(self, album, mm):print "正在保存"+mm['realName'].encode('utf-8')+'的相册，相册id为：'+album.encode('utf-8')