自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 Scrapy+splash抓取js生成的数据

一、python、lua、js间参数传递原理抓取过程是python调用splash的lua脚本,lua中又调用了js代码实现相关页面内容的提取及js动作的模拟。在python中通过meta的splash中的args设置python将要传入splash的参数信息,在splash中通过splash:jsfunc的接口封装js代码成为lua函数,进而将lua中的参数传入js代码中。(1)

2016-03-17 17:16:52 11821 1

原创 Scrapy如何实现抓取动态网页

作者:张昌昌         动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个html里有,通过JS生成aaa;3)点击输入关键字后进行查询,而浏览器url地址不变第一种方法:直接url法 (1)认真分析页面结构,查看js响应的动作; (2)借助于firfox的firebug分析js点击动作所发出的请求url; (3

2016-03-06 18:07:37 23178

aopalliance

aop 面向切面编程,通过此工具包,实现面向切面的编程,部署及维护

2012-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除