web spider
lord_is_layuping
这个作者很懒,什么都没留下…
展开
-
详解Heritrix多线程结构
详解Heritrix多线程结构想要更快速地抓取网页的内容,则必须采用多线程抓取。1.Heritrix中实现了一个标准的线程池ToePool,用于管理所有的抓取线程ToeThread.2.ToePool和ToeThread都位于org.archive.crawler.framework包中.3.ToePool的初始化实在CrawlController的initialize()方法中完成的. 代码如下原创 2011-01-22 21:48:00 · 1247 阅读 · 0 评论 -
一些常见爬虫
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 RBSE (Eichmann,1994)是第一个发布的爬虫。它有两个基础程序。第一个是“spider”,抓取队列中的转载 2011-11-18 16:18:20 · 1845 阅读 · 0 评论 -
定向抓取漫谈 长孙泰
定向抓取漫谈长孙泰网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。我们看一下crawler一般会遇到什么样转载 2011-10-24 11:15:08 · 1725 阅读 · 0 评论 -
使用 jsoup 对 HTML 文档进行解析和操作
jsoup 简介Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能转载 2011-08-30 18:51:03 · 1164 阅读 · 0 评论 -
国际域名注册商排名
截止至2010年1月18日,全球最大的域名注册商排名又有了新的变化。根据IDC评述网调查,具体排名数据如下:排名注册商品牌国家市场份额域名总量1GO DADDY美国转载 2011-08-24 10:14:11 · 14822 阅读 · 0 评论 -
全球各国.COM域名注册量统计TOP10 (美》中》德》英》加》法》澳)中美比例1:13
全球各国.COM域名注册量统计TOP10 中美比例1:13时间:2011-08-23 11:11 来源:中国IDC评述网 作者:佚名【导读】顶级域名.com在全球各国家的发展状态和受欢迎程度各不相同。就中美两国而言,.com虽然在美国域名市场的注册总量最多,转载 2011-09-01 00:53:52 · 2704 阅读 · 0 评论 -
哈希表的ELFhash算法
int ELFhash(char *key){ unsigned long h=0; while(*key) { h=(h<<4)+*key++; unsigned long g=h&0Xf0000000L; if(g) h^=g>>24; h&原创 2011-08-02 02:36:32 · 2800 阅读 · 1 评论 -
什么是二级域名
什么是二级域名 来源:互联网 发布日期:2011-08-02 11:13:21 字号大小:T|T|T 点击次数:1025次 A:几级域名就是看域名后面有几个以"."分隔的后缀。举例说,y转载 2011-09-01 10:27:56 · 1375 阅读 · 0 评论 -
国别域名热:.EU欧盟域名注册量近350万
国别域名热:.EU欧盟域名注册量近350万2011-08-29 16:28 来源:易名中国 【大中 小】 8月29日讯:据悉,根据欧洲互联网域名注册机构(EURID)统计.EU域名注册量已接近350万。据了解,.EU是欧盟域名,鲜明的欧洲标识,于200转载 2011-09-01 00:56:25 · 1470 阅读 · 0 评论 -
7月全球域名总量统计排名TOP20 (美》德》中》英》加》法》日)中国名列第三
7月全球域名总量统计排名TOP20 中国名列第三时间:2011-08-04 10:48 来源:中国IDC评述网 作者:佚名【导读】在域名总量排名前二十的国家和地区中,德国、韩国和俄罗斯三个国家出现了“入不敷出”的情况,其增加的域名数量要低于减少的域名数量,可转载 2011-09-01 00:50:43 · 2692 阅读 · 0 评论 -
浅谈URL和URI的区别
浅谈URL和URI的区别2008-12-16 17:14 by LiangO<br /><br /> URI: Uniform Resource Identifiers。<br /> URL:Uniform Reso原创 2011-02-18 01:09:00 · 858 阅读 · 1 评论 -
HTTPS的七个误解[转]
HTTPS的七个误解<br />2011-02-14 09:31 | 10942次阅读 | 来源:阮一峰的网络日志 【已有40条评论】发表评论<br />关键词:HttpWatch,HTTPS,Firesheep,Fire | 作者:Permalink | 收藏这篇资讯<br />开发网页的时候,往往需要观察HTTP通信。<br />我使用的工具主要有两个,在Firefox中是Firebug,在IE中是Fiddler。但是,一直听别人说,付费软件Ht原创 2011-02-19 21:25:00 · 966 阅读 · 0 评论 -
全球43亿网址即将用光
全球43亿网址即将用光 編譯中心綜合3日電世界新聞網北美華文新聞、華商資訊编译中心综合3日电世界新闻网北美华文新闻、华商资讯February 04, 2011 06:00 AM | 6813 觀看次數 | | 7February 04, 2011 06:00 AM | 6813观看次数| | 7| | ||管理全球电脑网路IP地址的国际机构3日在佛州迈阿密的会议上宣布最后五个IPv4地址,是网际网路的历史时刻。管理全球电脑网路IP地址的国际机构3日在佛州迈阿密的会议上宣原创 2011-02-12 12:38:00 · 804 阅读 · 0 评论 -
MD5例子 使用java.security.MessageDigest
<br /> MD5即Message-Digest Algorithm 5(信息-摘要算法5),是一种用于产生数字签名的单项散列算法,在1991年由MIT Laboratory for Computer Science(MIT计算机科学实验室)和RSA Data Security Inc(RSA数据安全公司)的Ronald L. Rivest教授开发出来,经由MD2、MD3和MD4发展而来。MD5算法的使用不需要支付任何版权费用。<br /> <br /> 它的作用是让大容原创 2011-01-24 22:31:00 · 4206 阅读 · 2 评论 -
MD5算法描述
MD5算法描述 <br /><br /> 1.来历 <br />MD5的全称是message-digest algorithm 5(信息-摘要算法,在90年代初由mit laboratory <br />for computer science和rsa data security inc的ronald l. rivest开发出来, <br />经md2、md3和md4发展而来。http://www.ietf.org/rfc/rfc1321.txt,是一份最权威的文档,<br />由ronald l. riv原创 2011-01-24 21:11:00 · 1146 阅读 · 0 评论 -
Java网页抓取例子
<br />import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import org.apache.commons.httpclient.Header;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.http原创 2011-01-23 00:23:00 · 1926 阅读 · 3 评论 -
Java宽度优先爬虫例子
<br />Java宽度优先爬虫例子<br /><br />1宽度优先遍历是爬虫中使用最广泛的一种爬虫策略.<br />如图:<br /><br /><br />Todo表 Visited表<br />A 空<br />BCDEF A<br />CDEF AB<br />DEF ABC<br /> <br /> <br />EF ABCD<br />原创 2011-01-23 21:06:00 · 1195 阅读 · 0 评论 -
HTTP状态码大全
HTTP状态码大全 完整的 HTTP 1.1规范说明书来自于RFC 2616,你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性,因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端,支持协议版本可以通过调用request.getRequestProtocol来检查。 本部分余下的原创 2011-01-23 00:39:00 · 849 阅读 · 0 评论 -
HTTP状态码(HTTP Status codes)简介
http://space.flash8.net/space/?246908/viewspace-429091http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html 官方的资料地址http://www.checkupdown.com/status/error1.html http://www.checkupdown.com/转载 2012-02-21 16:35:44 · 892 阅读 · 0 评论