自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 selenium+browsermobproxy实现woff解析

本次遇到的问题是woff文件混淆html的页面元素,使得爬虫获取的数据是错误的,需要将woff获取到。 selenium现在貌似没有获取network的能力,所以需要代理来配合用于拦截请求。 python的这个代理服务器启动之后要随着代码在本地一起跑 不能远程访问 贴一波代码: 1.开启代理服务 browsermobproxy 在github上有源码直接python setup.py i...

2018-08-24 15:29:49 2295 2

原创 urlib2实现单点登录

问题起源:公司买的java开发的项目没有源码,提供不了额外的接口,需要用爬虫单点登录之后获取数据。由于selenium要启动webdriver太慢,所以用urllib2实现登录。 1.首先需要理解cas授权和sso的原理,这个网上很多,自己看。关键是如何才能获取最终的SESSION。 2.urilib的post form貌似是不能实现自己携带cookie和转发的(java的httpclient...

2018-08-14 11:35:58 532

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除