【网络爬虫】总结
孟令杰
互联网技术研究
展开
-
JAVA利用HttpClient进行HTTPS接口调用
https 协议 在 http 基础上做了一次算法加密,但并不是完全安全的。我们可以通过躲避证书,绕过加密算法来获取数据。一、jar 包版本准确定位:httpcore-4.2.4.jar 和 httpclient-4.2.5.jar二、代码:1.为了避免需要证书,所以用一个类继承DefaultHttpClient类,忽略校验过程。package com.chexun原创 2017-10-31 09:46:08 · 4901 阅读 · 0 评论 -
java 开发用到网络爬虫,抓取汽车之家网站全部数据经历
经历了两个礼拜的折腾,某某知名网站的数据终于到手了。犯罪没被发现这种心情感觉很爽。说一下我的犯罪经历,之前公司总是抓取某某网站数据,可能是被发现了。某某网站改变了策略。通过各种技术终止了我们的行为,导致我们的抓取功能报错,逐步跟踪,发现我们之前是在人家的网站,通过Webharvest网络爬虫拿到页面的一个javascript 的变量 var config 的值 (变量值中包含想要的数据)配置如原创 2017-06-07 11:12:44 · 17439 阅读 · 2 评论