Java 爬虫
文章平均质量分 80
Java 爬虫
Richard_Yi
热衷微服务、分布式; 关键词:重度猫瘾、健身、读书、生活
个人主页:https://ricstudio.top
展开
-
Java爬虫(八)-- httpClient进阶:HTTPS和证书认证(原理总结篇)
一、前言本篇文章承接上一篇,对应讲述一些我在接触SSL协议、证书认证时学到的一些原理性知识。因为本身不是科班出身,网络方面很多对我来说都是新知识,特在此记录一下。二、HTTPSHTTPS = HTTP + SSL/TLS 协议,即加密过后的HTTP通信。它其实还是HTTP协议,只是在外面加了一层,SSL 是一种加密安全协议,引入SSL的目的是为了解决HTTP协议在不可信网络中使用明...原创 2018-04-04 18:08:54 · 4622 阅读 · 2 评论 -
Java爬虫(七)- httpClient进阶: https 和 证书认证(讲故事篇)
一、前言本篇风格会偏向讲故事,来记录整个发现问题,解决问题的过程。具体的知识点总结放在后一篇。前段阵子被分配了一个工单,要求抓取另一个险企B的数据。想着应该不会比上一家A麻烦了,险企A抓取数据过程中有几次请求是跨域的,很多数据都是由ajax动态请求到的,要分析js代码,模拟请求。稍微观察了一下险企B的页面源代码,发现所有操作除了表单提交,其他都是get请求。而且模拟登录时不需要输验证码...原创 2018-04-04 08:57:38 · 5097 阅读 · 1 评论 -
Java爬虫(六)-- httpClient进阶:超时时间设置+cookie保存策略
一、前言本文主要介绍httClient超时时间设置,以及cookie保存策略设置。二、超时时间设置httpClient内部有三个超时时间设置:connectTimeout – 连接超时指的是连接目标url的连接超时时间,即客服端发送请求到与目标url建立起连接的最大时间。如果在该时间范围内还没有建立起连接,则就 抛出connectionTimeOut异常。如测试的时候...原创 2018-03-15 14:57:53 · 2979 阅读 · 1 评论 -
Java爬虫(五)-- httpClient进阶:使用代理(详细解析)
一、前言好久没有写博客,趁着难得的空闲时间更新一波。前面几期讲到的主要包括了爬虫开发中的页面获取、页面解析两个方面的知识,套用二八原则,可以解决80%的工作。但是其他的20%的工作,就可能要用到我们80%的时间和精力去研究。这个就是我接下去几期要讲的。这期主要是讲一些实际场景下可能需要用到的httpClient设置,大都是我在实际开发中需要用到的,都算是一些小知识点,但是还是希望能能够记录总结...原创 2018-03-15 11:46:34 · 8939 阅读 · 0 评论 -
Java爬虫(四)-- Java 调用 JS 函数 模拟页面 JS 密码加密(附几个知识点)
前言前面一章讲的是模拟登录,留了一个模拟密码加密还没讲。因为这一过程的调试探索还是蛮多内容的,我更倾向于记录自己整个探索的过程,而不是把工具拿出来讲一下用法,所以单独拿一章来讲。调试过程首先,既然要模拟js的加密过程,当然是要调试前端代码,从定位到起加密作用的js代码上面。F12浏览器调试时,source目录下可以看到当前的浏览器的一些静态文件,包括页面,css,js等文件...原创 2018-03-01 16:56:13 · 4176 阅读 · 0 评论 -
Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理
前言前面两章内容阐述了httpClient怎么模拟Http请求和如何解析页面。接下去会讲在一些实战中遇到的问题。现在回到我的开发摸索之路,之前说到我所爬取的网页是某个险企提供给合作公司的一个页面,通过账号登录然后爬取指定的数据。这里就出现本章要写的主题了。模拟登录。我首先确认登录验证的请求所需要携带的参数:可以看到,登录需要验证码,并且密码不是明文传输的,而是通过前...原创 2018-03-01 15:08:20 · 16968 阅读 · 0 评论 -
Java爬虫(二)-- httpClient模拟Http请求+jsoup页面解析
前言在了解了爬虫的大概原理和目前的技术现状之后,我就开始了java爬虫的蹒跚之旅。首先我想到的是用框架,了解到的主流的Nutch、webmagic、webcollector等等,都看了一遍,最好懂的是webmagic,因为是国人开发的,有中文文档,看的很舒服。刚开始写练手的demo之后发现都很舒服,设置好对应爬取规则、爬取深度之后,就能得到想要的数据。但是当我正式准备开发的时候,很快就...原创 2018-03-01 15:00:12 · 8212 阅读 · 0 评论 -
Java爬虫(一)-- 前言
开发背景本人算是程序小白的阶段,目前大四,刚进公司实习,被分配了一个使用爬虫技术多账号轮流登录抓取某个险企网站保单数据的需求,之前没有怎么接触过,组里的人之前也没有开发过爬虫的,一路走来,都是自己通过网络进行学习,差不多3个星期,才解决了这个需求。这一段时间,我对爬虫也是有了一定的理解,对http网络协议、ssl证书等也学习了很多,特以此系列文章作为记录。整个系列文章的顺序,也大致会按照我...原创 2018-03-01 14:57:57 · 1062 阅读 · 0 评论