重要:因为同步公号的文章格式很难保证,所以后面文章选择性在其他平台同步,欢迎移步公众号(Python之战),每日更新原汁原味!
在上一篇《pyppeteer最为核心类Page的接口方法》讲了大部分pyppeteer的Page类的接口,与selenium相比增强了与页面js的交互功能,同时增加了设备的伪装和模拟能力,一方是因为pyppeteer库是源于puppeteer,而puppeteer是Google提供了一个js库,本身和js的交互性强,所以在页面交互上更深入。
也正是因为更深的js交互,所以可以任意修改任何网站在源码中的爬虫检测方式,并且毫不费劲,关于淘宝登陆有一种实现方式是使用中间代理修改检测的js文件,使用pyppeteer之后就不用这么麻烦,可以直接将js代码写入网站加载的js文件中。
继续Page类的剩下一下方法:
协程方法 setJavaScriptEnabled(enabled:bool )**
设置JavaScript启用/禁用。
协程方法 setOfflineMode(enabled:bool )**
设置离线模式启用/禁用。
协程方法 setRequestInterception(value:bool )
启用/禁用请求拦截,激活请求拦截允许 Request类的 abort(), continue_()和 response()方法,这提供了修改页面发出的网络请求的功能。
协程方法 setUserAgent(userAgent:str )
设置要在此页面中使用的用户代理。
参数:
userAgent(str) - 要在此页面中使用的特定用户代理
协程方法 setViewport(viewport:dict )
设置视图,可用选项包括:
width (int&#