數據采集
popAnt
这两周拼一拼,如果安好,则,吾挟妻去坝上
展开
-
百度蜘蛛观察
昨天对SEO博客进行了更新,加了两篇文章。Google发布苹果台式机搜索软件 第三代google排名搜索引擎技术出台订阅搜索引擎新闻的朋友,都可能看过这两则消息,没错,这两篇文章是转载的,文章底部也有消息来源,可供取证,做这个小实验的目的是为了验证枫林关于Baidu spider的几个观点。百度注重页面的优化,而不是站点整体的优化 百度蜘蛛对原创文章的敏感性不够高(Google则有原创 2010-04-13 15:39:00 · 463 阅读 · 0 评论 -
httpclient 参数 覆盖级别
解决问题:connection.timeout 连接参数设置,在httpConnectionManager 之下的级别是无法设置的.无论HostConfiguration 还是Method级别都无法设置.猜测原因是,本身连接池就是要避免过多的打开或关闭连接.所以,开了一个连接,应当是不去释放的.所以,在host以及method是无法去更改connection的相关内容.关于HttpCl转载 2012-09-04 16:53:41 · 918 阅读 · 0 评论 -
HttpClient中配置HTTP参数
关于HttpClient不多说,可以到apache网站下载,网上文档的也多如牛毛。针对HttpClient-3.1,我认为比较重要的一部分就是配置HTTP的参数。实际上,按HttpClient默认的参数配置也可以做简单的应用,其中对于参数配置问题,我觉得虽然比较乱,但是掌握了HttpClient应用参数继承的继承机制,就非常明白了。HttpClient-3.1中,参数继承结构如图所示:转载 2011-11-11 10:38:03 · 870 阅读 · 0 评论 -
httpClient 代理
一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网页中“偷”一些数据;利用某些站点提供转载 2011-11-11 10:32:14 · 815 阅读 · 0 评论 -
用HttpClient来模拟浏览器GET POST
一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网页中“偷”一些数据;利用某些站点提供转载 2011-11-11 10:36:55 · 762 阅读 · 0 评论 -
HttpClient 4 使用POST方式提交普通表单数据的例子
import java.io.BufferedReader; import java.io.InputStreamReader; import org.apache.http.HttpEntity; import org.apache.http.HttpHost; import org.apache.http.HttpResponse; import org转载 2011-11-11 10:38:29 · 2233 阅读 · 0 评论 -
JAVA socket POST 请求头, 通过socket 拼出该请求字符串
OST /SYS/login/login.aspx HTTP/1.1Host: www.vckbase.comUser-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/2008052906 Firefox/3.0Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8Accept-Language: zh-cn,zh;q=0.5Acc原创 2010-11-22 10:36:00 · 2347 阅读 · 0 评论 -
HTTP请求头详解
<br /><br />HTTP由两部分组成:请求和响应。当你在Web浏览器中输入一个URL时,浏览器将根据你的要求创建并发送请求,该请求包含所输入的URL以及一些与浏览器本身相关的信息。当服务器收到这个请求时将返回一个响应,该响应包括与该请求相关的信息以及位于指定URL(如果有的话)的数据。直到浏览器解析该响应并显示出网页(或其他资源)为止。<br />HTTP请求<br />HTTP请求的格式如下所示:<br /><request-line><br /><headers><br /><blank lin原创 2010-12-08 08:35:00 · 126857 阅读 · 4 评论 -
http 错误代码,及解释
http错误代码含义:"100" : Continue "101" : witching Protocols "200" : OK "201" : Created "202" : Accepted "203" : Non-Authoritative Information "204" : No Content "205" : Reset Content "206" : Partial Content "300" : Multiple Choices "301" : Moved Permanently "30转载 2010-07-15 14:11:00 · 1195 阅读 · 0 评论 -
百度蜘蛛什么时候出来
像很多开始学SEO的新手一样,SEO地爱歪也对这个问题有过迷惑,认为百度、gg等的蜘蛛都是晚上爬行这也是很多SEO高手或大师们的说法。所以造成了大多数SEO们的认识。 可是就在前几天,SEO地爱歪也想真正寻求这个问题的答案。而方法就是分析WEB服务器的访问日志。今天我就下载网站的日志,并带领大家一起寻找百度SPIDER的踪迹。我用的万网的UNIX服务器,可能有的朋友跟我的不同,不过大同转载 2010-04-13 15:40:00 · 582 阅读 · 0 评论 -
httpClient 教程
HttpClient 教程 (一)前言超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务,有网络功能的设备和网络计算的发展,都持续扩展了HTTP协议的角色,超越了用户使用的Web浏览器范畴,同时,也增加了需要HTTP协议支持的应用程序的数量。尽管java.net包提供了基本通过HTTP访问资源的功能,但它没有提供全面的灵活性和其转载 2012-09-04 16:48:01 · 2606 阅读 · 0 评论