nodejs+typescript爬虫之接管浏览器,也称之为“远程调试模式”

爬虫总结

背景

做浏览器自动化测试,或者是爬虫,总是每次都会打开多个网页,这样最大的弊端是,每次都需要登录,这样就会增加危险系数以及增加了复杂度,因为没有正常的用户是会频繁登入登出的。

需求

每次爬虫只登录一次,即复用同一个网页,这样就不需要每次都从头开始执行。

解决办法:

使用浏览器的远程调试模式,即用命令启动一个页面,然后手动或自动在本页面登录上目标网站,这样就可以实现了页面复用。

步骤:

1、下载和已有浏览器对应的浏览器驱动,然后将驱动放到浏览器安装目录下。

2、将浏览器安装目录写入系统path环境变量。

3、命令行启动浏览器实例:

# edge
msedge --remote-debugging-port=指定的端口 --user-data-dir="d:\xxxx\自定义浏览器实例数据缓存位置"
# chrome
chrome--remote-debugging-port=指定的端口 --user-data-dir="d:\xxxx\自定义浏览器实例数据缓存位置"

4、在命令行启动的浏览器中,输入要爬虫的地址,如果需要登录就登录,一切以页面的要求为准,即页面需要做啥就做啥。

5、根据目标浏览器实例的ip和端口,进行远程调试,注意:默认接管该**浏览器实例的第一个标签页面**。

ts-node代码实例:

import { Builder, By } from "selenium-webdriver";
import edge from "selenium-webdriver/edge";

(async () => {
    // 浏览器驱动实例配置选项
    const options:any = new edge.Options();
    // 指定远程地址和端口
    options.options_["debuggerAddress"] = "127.0.0.1:5555";
    console.log(111);
	// 建立连接,获取被接管浏览器(驱动)实例
    let driver = await new Builder()
        .forBrowser('MicrosoftEdge')
        .setEdgeOptions(options)
        .build();
	// 获取被接管页面的元素
    let h = await driver.findElement(By.css('#hotsearch-content-wrapper > li:nth-child(3) > a > span.title-content-title')).getText()

    console.log(h);
})();
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qq_1170407931

感谢各位小可爱的支持,谢谢啦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值