pyppeteer 爬虫

最新推荐文章于 2024-07-27 20:12:28 发布

我是小水水啊

最新推荐文章于 2024-07-27 20:12:28 发布

阅读量1.9k

点赞数 1

分类专栏： python 文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/Don_t_always_ail/article/details/119901728

版权

python 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

工作原理

启动一个浏览器Chromium，用浏览器装入网页。浏览器可以用无头模式
（headless)，即隐藏模式启动，也可以显式启动
从浏览器可以获取网页源代码，若网页有javascript程序，获取到的是
javascript被浏览器执行后的网页源代码
可以向浏览器发送命令，模拟用户在浏览器上键盘输入、鼠标点击等操作,
让浏览器转到其它网页
要求Python版本 >= 3.6
必须下载并安装特殊版本的谷歌浏览器Chromium

预备知识：协程

协程就是前面加了'async'的函数(从Python 3.6开始有)

async def f()
	return 0

•调用协程时，必须在函数名前面加'await'

await f()

协程只能在协程里面调用，即await语句只能出现在协程里面。
•协程是一种特殊的函数，多个协程可以并行
•pyppeteer中的所有函数都是协程，调用时前面都要加 await，且只能在协程中调用

获取网页的源代码的一个函数:

def getHtml(url): #暂时适用于百度图片搜索
    import asyncio #Python 3.6之后自带的协程库
    import pyppeteer as pyp
    async def asGetHtml(url): #获取url对应网页的源代码
        browser = await pyp.launch(headless=False)
        # 启动Chromium,browser即为Chromium浏览器，非隐藏启动,headless=True就是隐藏
        page = await browser.newPage()# 在浏览器中打开一个新页面（标签）
        await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; \
        Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \
        Chrome/78.0.3904.70 Safari/537.36') #反反爬措施
        await page.evaluateOnNewDocument(
        '() =>{ Object.defineProperties(navigator, \
        { webdriver:{ get: () => false } }) }' ) #反反爬措施

        await page.goto(url)  # 装入url对应的网页
        text = await page.content()  # page.coutent就是网页源代码字符串
        await browser.close()  # 关闭浏览器
        return text

    m = asyncio.ensure_future(asGetHtml(url))  # 协程外启动协程
    asyncio.get_event_loop().run_until_complete(m)  # 等待协程结束
    return m.result()  # 返回的就是asGetHtml的返回值 text

launch的其它参数

browser = await launch(headless=False, executablePath = "c:/tmp/chrome-win32/chrome.exe", userdataDir = "c:/tmp")
excutablePath: 如果Chromium没有安装在默认文件夹下面，则需要指定其位置
userdataDir: userdataDir指明用来存放浏览器工作期间存放临时文件的文件夹。不是必须，能够防止可能出现的莫名其妙的错误
启动时看到浏览器界面launch 里面设置broswer = await launch(headless=False)
browser = await launch(devtools=True) 打开调试窗口
browser = await launch(headless=False, args=['--disable-infobars']) “Chrome 正受到自动测试软件的控制” 关闭这个提示
browser = await launch(headless=False, args=[f'--window-size={width},{height}']) 浏览器窗口比显示的内容窗口大小调整

基本框架


import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
 
async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('http://.....')
    doc = pq(await page.content())
    print('Quotes:', doc('.quote').length)
    await browser.close()

Pyppeteer 里面进行了异步操作，所以需要配合 async/await 关键词来实现
launch 方法会新建一个 Browser 对象，然后赋值给 browser
browser 调用 newPage 方法相当于浏览器中新建了一个选项卡，同时新建了一个 Page 对象
Page 对象调用了 goto 方法就相当于在浏览器中输入了这个 URL，浏览器跳转到了对应的页面进行加载
加载完成之后再调用 content 方法，返回当前浏览器页面的源代码
asyncio 的 get_event_loop 等方法的相关操作则属于 Python 异步 async 相关的内容

浏览器截图

await page.screenshot(path='example.png')

保存为 PDF

await page.pdf(path='example.pdf')

执行 JavaScript

await page.evaluate('''() => {
        return {
            width: document.documentElement.clientWidth,
            height: document.documentElement.clientHeight,
            deviceScaleFactor: window.devicePixelRatio,
        }

防止被检测为自动控制工具,webdriver 检测问题

import asyncio
from pyppeteer import launch
 
 
async def main():
    browser = await launch(headless=False, args=['--disable-infobars'])
    page = await browser.newPage()
    await page.goto('https://login.taobao.com/member/login.jhtml?redirectURL=https://www.taobao.com/')
    await page.evaluate(
        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
    await asyncio.sleep(100)

恢复上次登录状态(保存cookie)

设置 userDataDir

import asyncio
from pyppeteer import launch
 
async def main():
    browser = await launch(headless=False, userDataDir='./userdata', args=['--disable-infobars'])
    page = await browser.newPage()
    await page.goto('https://www.taobao.com')
    await asyncio.sleep(100)
 
asyncio.get_event_loop().run_until_complete(main())

这里就是加了一个 userDataDir 的属性，值为 userdata，即当前目录的 userdata 文件夹。我们可以首先运行一下，然后登录一次淘宝，这时候我们同时可以观察到在当前运行目录下又多了一个 userdata 的文件夹

获取元素

Pyppeteer 三种解析方式
Page.querySelector() # 选择器
Page.querySelectorAll()
Page.xpath() # xpath 表达式

简写方式为：
Page.J(), Page.JJ(), and Page.Jx()
“”"

xpath

<span class="title">肖申克的救赎</span>

# 获取其中文本
name = await page.xpath('//span[@class="title"]')
await (await name.getProperty("textContent")).jsonValue()

<div class="p-name p-name-type-2">
    <a target="_blank" title="此商品将于2019-07-27,00点结束闪购特卖，女神价到30期"         
     href="//item.jd.com/7019143.html" 
     onclick="searchlog(1,7019143,1,1,'','flagsClk=1094718088')">
		<em>Apple <font class="skcolor_ljg">iPad</font> 
        平板电脑 2018年新款9.7英寸（128G WLAN版/A10 芯片/Touch ID MRJP2CH/A）金色
        </em>
	    <i class="promo-words" id="J_AD_7019143">
        此商品将于2019-07-27,00点结束闪购特卖，女神价到30期  
        </i>
	</a>
</div>

# 获取 title 对应字段
name  = await num.xpath("./div[@class='p-name p-name-type-2']/a")
name = await (await name.getProperty("title")).jsonValue()

getProperty：为获取标签内的字段的值

CSS选择器

page.querySelector(…)

<i class="iconfont static" id="J_Quick2Static" data-spm-anchor-id="a2107.1.0.i4.44d211d9RgKFmD">111</i>

获取这个标签，点击

pwd_login = await page.querySelector('#J_Quick2Static')
# print(await (await pwd_login.getProperty('textContent')).jsonValue())
await pwd_login.click()

判断是否有滑块 .Jeval

slider = await page.Jeval('#nocaptcha', 'node => node.style')  # 是否有滑块

第一个参数：css 选择
第二个参数：应该是执行的 js 代码获得此标签，.style 获得标签 css 风格；.textContent 获得标签的文本

对相应元素输入值

await page.type('#TPL_username_1', username, {'delay': input_time_random() - 50})
await page.type('#password-label', pwd, {'delay': input_time_random()})

第一个参数：用 css 方法定位元素
第二个参数：提交字段
第三个参数：delay 延迟的意思，单位毫秒，意思是指定递交需要多少时间

鼠标事件

鼠标悬停到指定元素上方 .hover
await page.hover('#nc_1_n1z')把鼠标选定到指定元素，用 css 选取的

鼠标放下，移动，放开
await page.mouse.down()
await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
await page.mouse.up()
.move()：第一个参数向 x，第二个 y，第三个延迟，需要几秒完成

键盘事件

await page.keyboard.press('Enter') 回车
.waitForNavigation()当页面重新加载或定向到新的 url，将返回响应
.click()找到元素点击

点击事件

btn = await page.querySelector('#J_SubmitStatic')
await btn.click()

设置请求头

await page.setUserAgent(
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299')

等待事件

await asyncio.sleep(6)休息几秒
await page.waitForSelector("#main>h2", timeout=30000) #等待“等待指定元素出现…"标题出现
await page.waitForNavigation() # 等新网页装入完毕

拉到页面最底部

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

获取网页源代码

html = await page.content()

iframe

用名字来找

frame = await page.frames().find(f => f.name() === 'name')


frame = await page.frames();//得到所有的frame框
console.log(frames.length);//查看得到的frame列表数量

选择所有的iframe 选第四个

frame = ( await page.frames() )[4]

嵌套i的frame

frame1 = await page.frames().find(f => f.name() === 'leftframe');
  // 得到第一个iframe框架的子框架
childframe1 = ( await frame1.childFrames() )[0];
  // 等待输入框出现，输入信息
await childframe1.waitFor('#input_01');
await childframe1.type('#input_01','第一次输入：leftframe');

反反爬虫

await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; Win64; x64) \ '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/78.0.3904.70 Safari/537.36')

await page.evaluateOnNewDocument(
'() =>{ Object.defineProperties(navigator,'
'{ webdriver:{ get: () => false } }) }')

模拟登录

element = await page.querySelector("#email") #找到账户输入框 这里也可以写xpath()
await element.type("XXXXX@pku.edu.cn") # 输入邮箱
element = await page.querySelector("#password") #找到密码输入框
await element.type("XXXXXXXXX") # 输入密码
element = await page.querySelector("#c") #找到点击按钮
await element.click() # 点击

pyppeteer+requests 编写快速爬虫

工作原理

pyppeteer的浏览器的页面有cookies()函数可以获得cookie
requests.Session()可以生成一个空session
session的cookies.update(cookies)函数可以根据cookies生成相应
session
session的get(url)函数，可以向服务器发送带session的请求
获得cookie，生成相应session以后，爬取网页都用session的get函数进行
(前提：网页不是javascript生成的。如果是，依然用pyppeteer的浏览器爬取）

import asyncio
import pyppeteer as pyp
import bs4
import requests


def sessionGetHtml(session, url):  # 发送带session的网页请求
    fakeHeaders = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
    AppleWebKit/537.36 (KHTML, like Gecko) \
    Chrome/81.0.4044.138 Safari/537.36 Edg/81.0.416.77'
    }  # 伪装浏览器用的请求头
    try:
        result = session.get(url, headers=fakeHeaders)
        result.encoding = result.apparent_encoding
        return result.text
    except Exception as e:
        print(e)
        return ""


async def makeSession(page):
    # 返回一个session,将其内部cookies修改成pypeteer浏览器页面对象中的cookies
    cookies = await page.cookies()  # cookies是一个列表，每个元素都是一个字典
    cookies1 = {}
    for cookie in cookies:  # requests中的cookies只要 "name"属性
        cookies1[cookie['name']] = cookie['value']
    session = requests.Session()
    session.cookies.update(cookies1)
    return session


async def antiAntiCrawler(page):
    # 为page添加反反爬虫手段
    await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; Win64; x64) \ '
                            'AppleWebKit/537.36 (KHTML, like Gecko) '
                            'Chrome/78.0.3904.70 Safari/537.36')
    await page.evaluateOnNewDocument(
        '() =>{ Object.defineProperties(navigator,'
        '{ webdriver:{ get: () => false } }) }')


async def getOjSourceCode(loginUrl):
    width, height = 1400, 800  # 网页宽高
    browser = await pyp.launch(headless=False,
                               userdataDir="c:/tmp",
                               args=[f'--window-size={width},{height}'])
    page = await browser.newPage()
    await antiAntiCrawler(page) # 反爬虫函数
    await page.setViewport({'width': width, 'height': height})
    await page.goto(loginUrl)
    await page.waitForSelector("#main>h2",
                               timeout=30000)  # 等待手动登录后，“正在进行的比赛...."标题出现
    element = await page.querySelector("#userMenu>li:nth-child(2)>a")
    # 找"个人首页”链接
    await element.click()  # 点击个人首页链接
    await page.waitForNavigation()  # 等新网页装入完毕
    elements = await page.querySelectorAll(".result-right")
    # 找所有"Accepted"链接, 其有属性 class="result-right"
    session = await makeSession(page) # 调用函数获取session 
    for element in elements[:2]:
        obj = await element.getProperty("href")
        url = await obj.jsonValue()
        html = sessionGetHtml(session, url) # 利用之前获取的session爬取
        soup = bs4.BeautifulSoup(html, "html.parser")
        element = soup.find("pre")
        print(element.text)
        print("-------------------------")
    await browser.close()


def main():
    url = "http://openjudge.cn/auth/login/"
    asyncio.get_event_loop().run_until_complete(getOjSourceCode(url))


main()