关于做爬虫项目的一些小杂记–pyppeteer
1.启动参数解释(待补充)
# 'headless': False 是否以”无头”的模式运行,,即是否显示窗口,默认为 True(不显示)
# 'ignoreHTTPSErrors': True 是否忽略 Https 报错信息,默认为 False
# 'dumpio': True 防止多开导致的假死
# args常用配置
#### '--no-sandbox' 取消沙盒模式,放开权限
#### '--disable-infobars' 不显示信息栏,比如:chrome正在受到自动测试软件的控制
#### '--window-size=1920,1080' 设置窗口大小 和"--start-maximized"参数互斥
#### "--start-maximized" 窗口最大化
#### "--proxy-server=http://127.0.0.1:80" 设置代理
#### "--user-agent=Mozilla/5.0......" 设置UA
browser = await launch(
{'headless': False, 'dumpio': True, 'autoClose': False,
'ignoreHTTPSErrors': True,
'args': ['--no-sandbox', '--disable-infobars', '--window-size=1920,1080',
]})
2.清除特定参数(webdriver),达到绕过反爬检查,从而实现爬虫
await page.evaluateOnNewDocument('''
() => {
const newProto = navigator.__proto__;
delete newProto.webdriver;
navigator.__proto__ = newProto;
}
''')
3.拖拽验证码,缺口位置确定
def get_distance(bkg,blk):
block = cv2.imread(blk, 0)
template = cv2.imread(bkg, 0)
cv2.imwrite('template.jpg', template)
cv2.imwrite('block.jpg', block)
block = cv2.imread('block.jpg')
block = cv2.cvtColor(block, cv2.COLOR_BGR2GRAY)
# block = abs(255 - block)
cv2.imwrite('block.jpg', block)
block = cv2.imread('block.jpg')
template = cv2.imread('template.jpg')
result = cv2.matchTemplate(block,template,cv2.TM_CCOEFF_NORMED)
x, y = np.unravel_index(result.argmax(), result.shape)
print(x, y, sep='\n')
#这里就是下图中的绿色框框
cv2.rectangle(template, (y+20, x+20), (y + 136-25, x + 136-25), (7, 249, 151), 2)
print('x坐标为:%d'%(y))
return y
if __name__ == "__main__":
# 下载图片
urls = {"bkg.jpg": "https://necaptcha.nosdn.127.net/b016d6ff32fc4c7ca5d40d0869ecde33.jpg",
"blg.jpg": "https://necaptcha.nosdn.127.net/3a39df3bb5e443798136534e19b8c4f1.png"}
for i in urls.keys():
re = requests.request("GET", urls[i])
with open(i, 'bw') as f:
f.write(re.content)
# 裁剪 滑块图片
image = cv2.imread("blg.jpg", 1) # 读取图片 image_name应该是变量
img = cv2.medianBlur(image, 5) # 中值滤波,去除黑色边际中可能含有的噪声干扰
b = cv2.threshold(img, 15, 255, cv2.THRESH_BINARY) # 调整裁剪效果
binary_image = b[1] # 二值图--具有三通道
binary_image = cv2.cvtColor(binary_image, cv2.COLOR_BGR2GRAY)
# print(binary_image.shape) # 改为单通道
print(binary_image)
x = binary_image.shape[0]
print("高度x=", x)
y = binary_image.shape[1]
print("宽度y=", y)
edges_x = []
edges_y = []
for i in range(x):
for j in range(y):
if binary_image[i][j] == 255:
edges_x.append(i)
edges_y.append(j)
left = min(edges_x) # 左边界
right = max(edges_x) # 右边界
width = right - left # 宽度
bottom = min(edges_y) # 底部
top = max(edges_y) # 顶部
height = top - bottom # 高度
print(left, width, bottom, height, sep="\n")
pre1_picture = image[left:left + width, bottom:bottom + height]
cv2.imwrite('blg_new.jpg', pre1_picture)
# 裁剪背景图
image = cv2.imread("bkg.jpg", 1)
image_new = image[left:left + width, :]
cv2.imwrite("bkg_new.jpg", image_new)
# 获取坐标
distance = get_distance("bkg_new.jpg", "blg_new.jpg")
print(distance)
4.关于破解验证码时,资源格式为(data:image/png;base64)时的解决方法
a.data:image/png;base64其实就是Data URI scheme
Data URI scheme :Data URI scheme是在RFC2397中定义的,目的是将一些小的数据,直接嵌入到网页中,从而不用再从外部文件载入,例如下面的代码
<img src="">
在上面的Data URI中,data表示取得数据的协定名称,image/png 是数据类型名称,base64 是数据的编码方法,逗号后面就是这个image/png文件base64编码后的数据。 目前,Data URI scheme支持的类型有:
data:,文本数据
data:text/plain,文本数据
data:text/html,HTML代码
data:text/html;base64,base64编码的HTML代码
data:text/css,CSS代码
data:text/css;base64,base64编码的CSS代码
data:text/javascript,Javascript代码
data:text/javascript;base64,base64编码的Javascript代码
编码的gif图片数据
编码的png图片数据
编码的jpeg图片数据
编码的icon图片数据
b. 在爬虫过程中对以上数据如何处理呢?请看下面代码
async def get_image(self, page, path,image_name):
# 先获取src
src_text = await get_attribute(page, path, attr="src")
# 截取除图片的内容 是经过base64加密的
image_content = src_text.split("base64,")[1]
import base64
# 通过base64解密
image_content_b = base64.b64decode(image_content.encode())
# 通过二进制写入文件,即可获得目标图片
with open(image_name, "bw") as f:
f.write(image_content_b)
async def get_attribute(page, path, attr="value"):
"""
获取指定元素的value值
:param page:
:param path:
:param attr: 默认value 默认获取value属性值
:return:
"""
for i in range(1, global_wait_time):
try:
value = await page.querySelectorEval(path, "el => el.getAttribute('{}')".format(attr))
return value
except:
await page.waitFor(global_interval_time)
continue
Exception("path=[{}]的元素的value值未找到({}秒超时)".format(path, global_wait_time))
关于page.select 方法的简单说明
简单的页面,包含一个下拉筛选
<!DOCTYPE html>
<html>
<body>
<select id="select_01">
<option value="1">Volvo</option>
<option value="2">Saab</option>
<option>Opel</option>
<option value="4">41</option>
</select>
</body>
</html>
# -*- coding: utf-8 -*-
# Author:zschuan
# Date:2020/9/28 17:24
from pyppeteer import launch
async def login():
browser = await launch(
{'headless': False, 'dumpio': True, 'autoClose': False,
'args': ['--no-sandbox', '--disable-infobars', '--window-size=1680,1050']})
page = await browser.newPage()
await page.setViewport(viewport={'width': 1680, 'height': 1050})
# 地址该处自己的地址即可
await page.goto(r"D:\Programmer\data\DataPython\zschuan\puppeteer_test\select.html")
await page.waitFor("#select_01")
# 无value属性
await page.select("#select_01", "Opel")
# # 有value属性
# await page.select("#select_01", "4")
if __name__ == "__main__":
import asyncio
asyncio.get_event_loop().run_until_complete(login())
正常的下拉中都会有value值,此时我们可以直接通过page.select(元素,value值)来实现下拉选择,但是有时候option标签中并没有value属性,此时,我么可以通过option标签之间的文本来实现下拉(例如上述实例中的【Opel】)
注:当option标签中既有value属性,又有文本信息时,此时必须先填写value属性值,直接填写文本信息,无法实现下拉选择