爬虫
alleni123
这个作者很懒,什么都没留下…
展开
-
httpclient版本
这几天一直没弄明白org.apache.commons.httpclient.HttpClient; 和import org.apache.http.client.HttpClient;到底是怎么回事。 今天查了一下,原来前者是httpclient3.x版本的类, 是从属于Jakarta Commons的项目。 而后者是httpclient4.x版本。也就是脱离了commons. ...原创 2014-05-26 18:05:29 · 965 阅读 · 0 评论 -
httpclient post请求没设有置编码的问题
某个网站要通过post请求来返回数值。 使用httpclient发送post请求的过程如下: [code="java"] public static void main(String[] args) throws ClientProtocolException, IOException { String url="http://localhost:8888/ser...原创 2014-05-30 14:19:16 · 453 阅读 · 0 评论 -
[转]Java模拟登录新浪微博
登录的类主要有3个,BigIntegerRSA.java加密类、SinaSSOEncoder密码加密类、SinaLogonDog登录类。 1、SinaLogonDog.java代码如下: [code="java"]package com.crawler.sina.login; import java.io.ByteArrayOutputStream; import java.io....原创 2014-06-13 15:13:59 · 168 阅读 · 0 评论 -
jsoup使用笔记
[code="xml"] org.jsoup jsoup 1.7.3 [/code] 2014/08/28 今天遇到这种形式, 这里如果使用 Elements eles=Jsoup.parse(content).select("div[class=ba_info]"); 则只能获取第一个,如果写成div[class=ba_info ba_i...原创 2014-08-28 10:44:52 · 99 阅读 · 0 评论 -
phantomjs安装(linux,附带环境变量设置) ,以及casperjs安装。
1. 首先从官网[url]http://phantomjs.org/[/url]下载phantomjs压缩包,解压缩到/root/phantomjs文件夹。 2. 安装依赖 [code="java"]sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6[/code] ...原创 2014-09-24 10:55:45 · 387 阅读 · 0 评论 -
对比浏览器,casperjs,httpclient的Header信息
[code="java"] @Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es...原创 2014-11-04 11:57:43 · 181 阅读 · 0 评论 -
HttpClient4.3 创建SSL协议的HttpClient对象
[code="java"]public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLConte...原创 2014-11-07 11:13:18 · 315 阅读 · 0 评论