Splash
chengqiuming
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫之Splash基础篇
一 点睛 Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 二 功能介绍 利用Splash,我们可以实现如下功能: 异步方式处理多个网页渲染过程; 获取渲染后的页面的源代码或截图; 通过关闭图片渲染或者使用Adblock规则来加快...原创 2019-01-19 17:15:22 · 7509 阅读 · 0 评论 -
爬虫之Splash对象属性
一 点睛 main()方法的第一个参数是splash,这个对象非常重要,它类似于Selenium中的WebDriver对象,我们可以调用它的一些属性和方法来控制加载过程。 二 agrs 1 点睛 该属性可以获取加载时配置的参数,比如URL,如果为GET请求,它还可以获取GET请求参数;如果为POST请求,它可以获取表单提交的数据。Splash也支持使用第二个参数直接作为args。 2 代...原创 2019-01-19 20:01:30 · 761 阅读 · 0 评论 -
爬虫之Splash对象方法(一)
一 go() 1 点睛 该方法用来请求某个链接,而且它可以模拟GET和POST请求,同时支持传入请求头、表单等数据,其用法如下: ok, reason = splash:go{url, baseurl=nil, headers=nil, http_method="GET", body=nil, formdata=nil} 其参数说明如下。 url:请求的URL。 baseurl:可选...原创 2019-02-05 09:58:46 · 1025 阅读 · 0 评论 -
爬虫之Splash对象方法(二)
一 autoload() 1 点睛 此方法可以设置每个页面访问时自动加载的对象,使用方法如下: ok, reason = splash:autoload{source_or_url, source=nil, url=nil} 参数说明如下。 source_or_url:JavaScript代码或者JavaScript库链接。 source:JavaScript代码。 url:Jav...原创 2019-02-05 11:25:02 · 635 阅读 · 1 评论 -
爬虫之Splash对象方法(三)
一 set_content() 1 点睛 用来设置页面内容。 2 代码 function main(splash) assert(splash:set_content("<html><body><h1>hello</h1></body></html>")) return splash:png()原创 2019-02-05 11:38:25 · 437 阅读 · 0 评论 -
爬虫之Splash对象方法(四)
一 get_cookies() 1 点睛 此方法获取当前页面的Cookies 2 代码 function main(splash, args) splash:go("https://www.baidu.com") return splash:get_cookies() end 3 效果 二 add_cookie() 1 点睛 为当前页面添加Cookie,用法如下: ...原创 2019-02-05 12:10:16 · 581 阅读 · 0 评论 -
爬虫之Splash对象方法(五)
一 set_user_agent() 1 点睛 设置浏览器的User-Agent 2 代码 function main(splash) splash:set_user_agent('Splash') splash:go("http://httpbin.org/get") return splash:html() end 3 效果 二 set_custom_header...原创 2019-02-05 13:25:59 · 1087 阅读 · 0 评论 -
爬虫之Splash API调用(上)
一 点睛 如何才能利用Splash渲染页面呢?怎样才能和Python程序结合使用并抓取JavaScript渲染的页面呢? 其实Splash给我们提供了一些HTTP API接口,我们只需要请求这些接口并传递相应的参数即可。 二 render.html 1 点睛 此接口用于获取JavaScript渲染的页面的HTML代码,接口地址就是Splash的运行地址加此接口名称。 例如http://...原创 2019-02-05 13:58:10 · 1412 阅读 · 0 评论 -
爬虫之Splash API调用(下)
一 render.json 1 点睛 此接口包含了前面接口的所有功能,返回结果是JSON格式。 2 编码 curl http://localhost:8050/render.json?url=https://httpbin.org 3 结果 4 说明 可以看到,这里以JSON形式返回了相应的请求数据。 我们可以通过传入不同参数控制其返回结果。比如,传入html=1,返回结果即...原创 2019-02-05 14:24:02 · 1362 阅读 · 0 评论
分享