爬取一个https 的网站

本文详细介绍了如何使用Selenium和定制Firefox浏览器,通过操纵浏览器操作,成功爬取采用HTTPS协议并使用juniperclient维护session的高安全性网站。测试过程中,通过合理利用Selenium的强大功能,有效解决了因异常导致的session持久化问题,最终实现自动化爬取目标。
摘要由CSDN通过智能技术生成
朋友让帮忙爬取一个https的网站,帐号密码都有。
自个去看了下,乍看之下,似乎很简单。
但是该网站的的安全性,我觉得挺高的。有效的减少了程序爬取成功的骚扰性。

网站使用 https协议,并使用juniper client来维持session。
也就是说在你登录后的第一步,他要求client端启动一个 juniper client 和server同步,并以一小时为时间段。
这样的话,他就可以有效的监控当前用户有多少个session在访问。

于是很悲催的事情,就是这种事情了。
测试过程中,经常因为各种异常来不及推出,于是原来的session就会一直在,直到我下次登录或者logout。

当然,这些都不是重点。

于是,使用了 selenium 来操纵 firefox。于是启动了custom firefox。进行了一系列的操作。
真心好用。

打完收工。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值