python3爬取淘女郎图片

最新推荐文章于 2020-12-04 00:22:03 发布

MineYuer

最新推荐文章于 2020-12-04 00:22:03 发布

阅读量914

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/hanzheng6602/article/details/79177362

版权

python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

selenium+chrome 爬取淘女郎页面

分析https://www.taobao.com/markets/mm/mmku 这个页面，右键查看网页源代码搜索 img 竟然找不到图片标签，可以猜测是ajax异步加载，所以爬取页面难度升级了，目前有两种方法

分析网页请求，写接口来处理
利用selenium 模拟浏览器登录

本次利用第二种方法，需求是先安装selenium 和 chromedriver （一定要下3.4版本以上的，不然会报错 element cant click）

爬虫思路

既然可以模拟浏览器了，那么异步加载就不是问题，img会被渲染到请求的html里面，现在只需要处理翻页问题了，因为一页只有几张图片。用chrome的检查元素功能，找到翻页栏，页数（class:skip-wrap),的class或者是id，利用By进行元素定位后模拟点击，存储图片就好啦，简单暴力。

#-*- coding:utf-8 -*-
'''Zheng 's BUG'''
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import os
class Crawl(object):
    # 获取首页的页面信息
    def getMMsInfo(self):
        url = 'https://www.taobao.com/markets/mm/mmku'
        #chromedriver一定要3.4以上的，不然会出现element 不能点击的错误
        driver = webdriver.Chrome(executable_path="C:\Program Files (x86)\Google\Chrome\Application\chromedriver")
        driver.get(url)
        try:
            #等到页面跳转条加载完毕
            WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME,"skip-wrap"))) # 查看10秒内，是否有页码部分出现
            print("成功提取页码")
            #通过pagesource传给soup
            soup = BeautifulSoup(driver.page_source, "html.parser")
            # 获取到了全部的页数
            pageNum = soup.find('span',class_ = "skip-wrap").find('em').text
            print("页码:"+pageNum)

            print("开始爬取头像！")
            # 同时得保存第一出现的图片，因为当前页是不能点击的，所以第一次不能通过点击完成
            # 每个mm的信息都在一个consli里
            mms = soup.find_all('div', class_="cons_li")
            # 对于每一个mm对象，获取其名字和头像
            self.saveMMS(mms)

            # 从第2页开始便利点击
            for i in range(2,int(pageNum)):
                # 点击当前页
                # 防止element不能点击，这里加了一个等待元素出现
                element = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.PARTIAL_LINK_TEXT, str(i))))

                #curpage = driver.find_element_by_partial_link_text(str(i))
                print(i)
                element.click()
                # 等待当前页加载完成
                pics = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CLASS_NAME,"skip-wrap")))
                # 获取网页内容
                soup = BeautifulSoup(driver.page_source,"html.parser")
                mms = soup.find_all('div',class_ = "cons_li")
                # 对于每一个mm对象，获取其名字和头像
                self.saveMMS(mms)
                print("当前完成：第"+str(i)+"页")
        finally:
            driver.quit()

    #一页的mm的li信息
    def saveMMS(self,mms):
        for mm in mms:
            name = mm.find('div', class_="item_name").find("p").text
            #get("src")和arrts["src"]
            img = mm.find('div', class_='item_img').find('img').get("src")
            # 如果路径不存在，设置存储路径
            dirpath = os.getcwd() + "\\美人\\"
            if not os.path.exists(dirpath):
                os.makedirs(dirpath)
            namepath = os.getcwd() + "\\美人\\" + name + ".jpg"
            self.saveImg(img, namepath)

    # 保存一张照片
    def saveImg(self, imageURL, fileName):
        if imageURL is None:
            return
        if 'http' not in imageURL: #去掉src不格式的图片
            return
        #流获得图片url内容
        u = requests.get(imageURL,stream = True).content

        try:
            with open(fileName,'wb') as jpg:
                jpg.write(u)
        except IOError:
            print("写入图片错误！")

    # 开始函数
    def start(self):
        print("抓起淘女郎-美人库第一页的内容，并存储于 美人 文件夹下")
        self.getMMsInfo()
        print("下载完成！")

tbmm = Crawl()
tbmm.start()