自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略

一、前言本文主要介绍httClient超时时间设置,以及cookie保存策略设置。二、超时时间设置httpClient内部有三个超时时间设置:connectTimeout -- 连接超时指的是连接目标url的连接超时时间,即客服端发送请求到与目标url建立起连接的最大时间。如果在该时间范围内还没有建立起连接,则就抛出connec...

2018-03-19 16:27:53 512

原创 Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略

一、前言本文主要介绍httClient超时时间设置,以及cookie保存策略设置。二、超时时间设置httpClient内部有三个超时时间设置:connectTimeout – 连接超时指的是连接目标url的连接超时时间,即客服端发送请求到与目标url建立起连接的最大时间。如果在该时间范围内还没有建立起连接,则就 抛出connectionTimeOut异常。如测试的时候...

2018-03-15 14:57:53 2941 1

原创 Java爬虫(五)-- httpClient进阶:使用代理(详细解析)

一、前言好久没有写博客,趁着难得的空闲时间更新一波。前面几期讲到的主要包括了爬虫开发中的页面获取、页面解析两个方面的知识,套用二八原则,可以解决80%的工作。但是其他的20%的工作,就可能要用到我们80%的时间和精力去研究。这个就是我接下去几期要讲的。这期主要是讲一些实际场景下可能需要用到的httpClient设置,大都是我在实际开发中需要用...

2018-03-15 14:14:04 715

原创 Java爬虫(五)-- httpClient进阶:使用代理(详细解析)

一、前言好久没有写博客,趁着难得的空闲时间更新一波。前面几期讲到的主要包括了爬虫开发中的页面获取、页面解析两个方面的知识,套用二八原则,可以解决80%的工作。但是其他的20%的工作,就可能要用到我们80%的时间和精力去研究。这个就是我接下去几期要讲的。这期主要是讲一些实际场景下可能需要用到的httpClient设置,大都是我在实际开发中需要用到的,都算是一些小知识点,但是还是希望能能够记录总结...

2018-03-15 11:46:34 8872

原创 【开发笔记】ajax交互报错调试,请求失败状态码为0时的解析,附解决方案

本文为历史博客迁移,实际发布时间:2018.04.03 13:50一、前言这几天在调试页面ajax的时候,一直报错。代码如下: $.ajax({ cache: true, type: "POST", url: url, data: data, ...

2018-03-04 15:45:17 692

原创 Java爬虫(四)-- java 调用js函数 模拟页面js密码加密(附几个知识点)

前言前面一章讲的是模拟登录,留了一个模拟密码加密还没讲。因为这一过程的调试探索还是蛮多内容的,我更倾向于记录自己整个探索的过程,而不是把工具拿出来讲一下用法,所以单独拿一章来讲。调试过程首先,既然要模拟js的加密过程,当然是要调试前端代码,从定位到起加密作用的js代码上面。F12浏览器调试时,source目录下可以看到当前的浏览器的一...

2018-03-04 02:50:25 475 1

原创 Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理

前言前面两章内容阐述了httpClient怎么模拟Http请求和如何解析页面。接下去会讲在一些实战中遇到的问题。现在回到我的开发摸索之路,之前说到我所爬取的网页是某个险企提供给合作公司的一个页面,通过账号登录然后爬取指定的数据。这里就出现本章要写的主题了。模拟登录。我首先确认登录验证的请求所需要携带的参数:可以看到,登录需要验证...

2018-03-03 11:27:54 742

原创 java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析

前言在了解了爬虫的大概原理和目前的技术现状之后,我就开始了java爬虫的蹒跚之旅。首先我想到的是用框架,了解到的主流的Nutch、webmagic、webcollector等等,都看了一遍,最好懂的是webmagic,因为是国人开发的,有中文文档,看的很舒服。刚开始写练手的demo之后发现都很舒服,设置好对应爬取规则、爬取深度之后,就能得到...

2018-03-02 13:45:04 424

原创 Java爬虫(一)---前言

开发背景本人算是程序小白的阶段,目前大四,刚进公司实习,被分配了一个使用爬虫技术多账号轮流登录抓取某个险企网站数据的需求,之前没有怎么接触过,组里的人之前也没有开发过爬虫的,一路走来,都是自己通过网络进行学习,差不多3个星期,才解决了这个需求。这一段时间,我对爬虫也是有了一定的理解,对http网络协议、ssl证书等也学习了很多,特以此系列文...

2018-03-01 18:32:06 197

原创 Java爬虫(四)-- Java 调用 JS 函数 模拟页面 JS 密码加密(附几个知识点)

前言前面一章讲的是模拟登录,留了一个模拟密码加密还没讲。因为这一过程的调试探索还是蛮多内容的,我更倾向于记录自己整个探索的过程,而不是把工具拿出来讲一下用法,所以单独拿一章来讲。调试过程首先,既然要模拟js的加密过程,当然是要调试前端代码,从定位到起加密作用的js代码上面。F12浏览器调试时,source目录下可以看到当前的浏览器的一些静态文件,包括页面,css,js等文件...

2018-03-01 16:56:13 4156

原创 Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理

前言前面两章内容阐述了httpClient怎么模拟Http请求和如何解析页面。接下去会讲在一些实战中遇到的问题。现在回到我的开发摸索之路,之前说到我所爬取的网页是某个险企提供给合作公司的一个页面,通过账号登录然后爬取指定的数据。这里就出现本章要写的主题了。模拟登录。我首先确认登录验证的请求所需要携带的参数:可以看到,登录需要验证码,并且密码不是明文传输的,而是通过前...

2018-03-01 15:08:20 16911

原创 Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析

前言在了解了爬虫的大概原理和目前的技术现状之后,我就开始了java爬虫的蹒跚之旅。首先我想到的是用框架,了解到的主流的Nutch、webmagic、webcollector等等,都看了一遍,最好懂的是webmagic,因为是国人开发的,有中文文档,看的很舒服。刚开始写练手的demo之后发现都很舒服,设置好对应爬取规则、爬取深度之后,就能得到想要的数据。但是当我正式准备开发的时候,很快就...

2018-03-01 15:00:12 8156

原创 Java爬虫(一)-- 前言

开发背景本人算是程序小白的阶段,目前大四,刚进公司实习,被分配了一个使用爬虫技术多账号轮流登录抓取某个险企网站保单数据的需求,之前没有怎么接触过,组里的人之前也没有开发过爬虫的,一路走来,都是自己通过网络进行学习,差不多3个星期,才解决了这个需求。这一段时间,我对爬虫也是有了一定的理解,对http网络协议、ssl证书等也学习了很多,特以此系列文章作为记录。整个系列文章的顺序,也大致会按照我...

2018-03-01 14:57:57 1041

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除