selenium+chrome 爬取淘女郎页面
分析https://www.taobao.com/markets/mm/mmku 这个页面,右键查看网页源代码搜索 img 竟然找不到图片标签,可以猜测是ajax异步加载,所以爬取页面难度升级了,目前有两种方法
- 分析网页请求,写接口来处理
- 利用selenium 模拟浏览器登录
本次利用第二种方法,需求是先安装selenium 和 chromedriver (一定要下3.4版本以上的,不然会报错 element cant click)
爬虫思路
既然可以模拟浏览器了,那么异步加载就不是问题,img会被渲染到请求的html里面,现在只需要处理翻页问题了,因为一页只有几张图片。用chrome的检查元素功能,找到翻页栏,页数(class:skip-wrap),的class或者是id,利用By进行元素定位后模拟点击,存储图片就好啦,简单暴力。
#-*- coding:utf-8 -*-
'''Zheng 's BUG'''
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import os
class Crawl(object):
# 获取首页的页面信息
def getMMsInfo(self):
url = 'https://www.taobao.com/markets/mm/mmku'
#chromedriver一定要3.4以上的,不然会出现element 不能点击的错误
driver = webdriver.Chrome(executable_path="C:\Program Files (x86)\Google\Chrome\Application\chromedriver")
driver.get(url)
try:
#等到页面跳转条加载完毕
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME,"skip-wrap"))) # 查看10秒内,是否有页码部分出现
print("成功提取页码")
#通过pagesource传给soup
soup = BeautifulSoup(driver.page_source, "html.parser")
# 获取到了全部的页数
pageNum = soup.find('span',class_ = "skip-wrap").find('em').text
print("页码:"+pageNum)
print("开始爬取头像!")
# 同时得保存第一出现的图片,因为当前页是不能点击的,所以第一次不能通过点击完成
# 每个mm的信息都在一个consli里
mms = soup.find_all('div', class_="cons_li")
# 对于每一个mm对象,获取其名字和头像
self.saveMMS(mms)
# 从第2页开始便利点击
for i in range(2,int(pageNum)):
# 点击当前页
# 防止element不能点击,这里加了一个等待元素出现
element = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.PARTIAL_LINK_TEXT, str(i))))
#curpage = driver.find_element_by_partial_link_text(str(i))
print(i)
element.click()
# 等待当前页加载完成
pics = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CLASS_NAME,"skip-wrap")))
# 获取网页内容
soup = BeautifulSoup(driver.page_source,"html.parser")
mms = soup.find_all('div',class_ = "cons_li")
# 对于每一个mm对象,获取其名字和头像
self.saveMMS(mms)
print("当前完成:第"+str(i)+"页")
finally:
driver.quit()
#一页的mm的li信息
def saveMMS(self,mms):
for mm in mms:
name = mm.find('div', class_="item_name").find("p").text
#get("src")和arrts["src"]
img = mm.find('div', class_='item_img').find('img').get("src")
# 如果路径不存在,设置存储路径
dirpath = os.getcwd() + "\\美人\\"
if not os.path.exists(dirpath):
os.makedirs(dirpath)
namepath = os.getcwd() + "\\美人\\" + name + ".jpg"
self.saveImg(img, namepath)
# 保存一张照片
def saveImg(self, imageURL, fileName):
if imageURL is None:
return
if 'http' not in imageURL: #去掉src不格式的图片
return
#流获得图片url内容
u = requests.get(imageURL,stream = True).content
try:
with open(fileName,'wb') as jpg:
jpg.write(u)
except IOError:
print("写入图片错误!")
# 开始函数
def start(self):
print("抓起淘女郎-美人库第一页的内容,并存储于 美人 文件夹下")
self.getMMsInfo()
print("下载完成!")
tbmm = Crawl()
tbmm.start()