java爬虫
jrymos001
加油
展开
-
ajax异步加载网页爬虫
一般的网页,使用httpclient就能做到,但httpclient的设计初衷是一个基于http协议的客户端,它并不是一个浏览器,也不具备浏览器的功能,所以针对ajax异步加载的网页,就无能为力了. 我本想也用java来做ajax异步加载网页的爬虫,只可惜使用selenium的jar包时,出了很多问题,我没能解决.最后还是选择用了Python来写.搭建环境1.下载selenium,selenium原创 2017-07-14 11:05:14 · 3460 阅读 · 0 评论 -
教务系统,验证码识别,异步加载,java爬虫06
上一篇介绍了Python的selenium,今天终于把selenium的java环境弄好了. 遇到ajax异步加载的网页还真有点点头疼,普通的爬虫会遇到登录的网页和加载的验证码不一致, 不过selenium还真是神器,可以模拟浏览器,实现加载的网页一致性, 爬取网页无所不能.环境selenium3.4的jar包和依赖包下载: http://pan.baidu.com/s/1jI1ewNc 同时原创 2017-07-14 11:41:24 · 1226 阅读 · 1 评论 -
java爬虫教程01
学习本教程前,先得了解http协议. 心血来潮,来搞点事情. 本教程基于: httpcomponents-client,主要根据官方文档讲解. http://hc.apache.org/httpcomponents-client-5.0.x/examples.html本人使用的是4.5.3版,下载地址: http://hc.apache.org/downloads.cgi一个简单的爬虫主要步原创 2017-07-09 11:10:13 · 1633 阅读 · 0 评论 -
java爬虫教程02
httpClient的response也可以手动释放连接手动释放连接responseCloseableHttpClient httpclient = HttpClients.createDefault();HttpGet httpget = new HttpGet(“http://httpbin.org/get“);CloseableHttpResponse response = httpcl原创 2017-07-09 11:37:26 · 381 阅读 · 0 评论 -
HttpClient基础知识(java爬虫03)
翻译文档: http://hc.apache.org/httpcomponents-client-4.5.x/tutorial/html/fundamentals.html1. 请求执行:HttpClient最重要的功能是执行HTTP方法。执行HTTP方法涉及一个或多个HTTP请求/ HTTP响应交换,通常由HttpClient内部处理。用户期望提供一个请求对象来执行,并且希望HttpClien翻译 2017-07-09 15:33:11 · 491 阅读 · 0 评论 -
java爬虫教务信息门户(java爬虫04)
我从去年12月开始接触爬虫,现在已有足足7个月了,中间一直没搞懂cookie和http协议,时隔这么久,总算弄明白了,也总算爬进去了!!! 昨天开始学习的httpClient,今天用它练手爬一下学校的信息门户吧! http://myportal.sxu.edu.cn/login.portal1. 抓包以下信息是通过charm浏览器抓包(快捷键F12)获得的:1. http://myportal.原创 2017-07-10 11:25:25 · 1586 阅读 · 0 评论 -
google 翻译爬虫 java
package com.fly.design.translation.google;import com.fly.design.translation.Language;import com.fly.design.translation.Translator;import org.junit.Test;import java.io.IOException;import stati原创 2018-01-18 09:18:21 · 879 阅读 · 0 评论