- 博客(2)
- 收藏
- 关注
原创 selenium+browsermobproxy实现woff解析
本次遇到的问题是woff文件混淆html的页面元素,使得爬虫获取的数据是错误的,需要将woff获取到。 selenium现在貌似没有获取network的能力,所以需要代理来配合用于拦截请求。 python的这个代理服务器启动之后要随着代码在本地一起跑 不能远程访问 贴一波代码: 1.开启代理服务 browsermobproxy 在github上有源码直接python setup.py i...
2018-08-24 15:29:49 2295 2
原创 urlib2实现单点登录
问题起源:公司买的java开发的项目没有源码,提供不了额外的接口,需要用爬虫单点登录之后获取数据。由于selenium要启动webdriver太慢,所以用urllib2实现登录。 1.首先需要理解cas授权和sso的原理,这个网上很多,自己看。关键是如何才能获取最终的SESSION。 2.urilib的post form貌似是不能实现自己携带cookie和转发的(java的httpclient...
2018-08-14 11:35:58 532
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人