- 博客(13)
- 资源 (15)
- 收藏
- 关注
原创 Heritrix的多线程ToeThread和ToePool
想要更有效更快速的抓取网页内容,则必须采用多线程。Heritrix中提供了一个标准的线程池ToePool,它用于管理所有的抓取线程。 ToePool和ToeThread都位于org.archive.crawler.framework包中。前面已经说过ToePool的初始化,是在 CrawlController的initialize()方法中完成的。来看一下ToePool以及ToeThread是如何
2009-10-27 21:00:00 1139
转载 Hash算法大全
Hash算法有很多很多种类。具体的可以参考之前我写的Hash算法的一些分析。本处给大家提供一个集合了很多使用的Hash算法的类,应该可以满足不少人的需要的: Java代码 /** * Hash算法大全 * 推荐使用FNV1算法 * @algorithm None * @author Goodzzp 2006-11-20 * @lastEdi
2009-10-25 11:05:00 2459 1
转载 Linux VI命令使用大全
vi filename :打开或新建文件,并将光标置于第一行首 vi +n filename :打开文件,并将光标置于第n行首 vi + filename :打开文件,并将光标置于最后一行首 vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处 vi -r filename :在上次正用vi编辑时发生系统崩溃,恢
2009-10-22 19:17:00 759
转载 基于Bloom-Filter算法的URL过滤器的实现[避免重复抓取]
一、 Bloom-Filter算法简介。Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom-Filter存在着误判。二、 Bloom-Filter的基本思想。Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。计算某元素x是否在一个集合中
2009-10-18 14:36:00 2706
转载 bitmap index 的研究
1:bitmap 索引是分段存储的,也就是说很多条记录可能是分做了N段来存储,也就是有N个begin/end ,基本来说应该按照 extent 来分,若一个extent 很大是否会分,没测试当新的记录 insert 而使用以前未曾使用过的物理地址的时候,会产生一个bitmap 段来存储,就算只有一条记录 2: 当删除一条记录的时候,在bitmap 索引上做了一个delete 的标记并用一新的记录
2009-10-18 13:44:00 761
转载 JDK1.6在LINUX下的安装配置
JDK1.6在LINUX下的安装是如何进行的呢,让我们开始我们的演示:Ubuntu Linux下jdk的安装与配置1.JDK1.6安装准备从sun公司网站www.sun.com下载linux版本的jdk,我下载的版本是JDK 6 Update 7,地址http://java.sun.com/javase/downloads/index.jspjdk-6u7-linux-i586
2009-10-17 20:08:00 786
转载 基于Lucene的最流行的分词法
核心提示:1. 基本介绍:paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,... 1. 基本介绍:paoding :Lucene中文分词“庖丁解牛”
2009-10-15 22:09:00 1129
原创 Linux 输入法设置
网上关于中文输入的文章很多,此处只是想疏理一下几个概念。1。输入法平台:windows下输入法与输入法平台好像是分不清的,而在Linux下他们的概念还是分开的好,输入法平台是输入法的基础,有时候你安装了某个输入法,却怎么也调不出来,则有可能就是它所需要的平台还没有建立。几个输入法平台:xcin(x-ChineseInput) ;iiimf(Intranet/Internet Input Met
2009-10-15 20:35:00 1056
转载 仿igoogle,3721等个性化主页源代码全收录及对比
排名不分先后1.仿netvibesnetvibes名气很大,国外的一个网站,现在也支持中文了。这个仿netvibes的源代码很早就有了,作者不详,可惜就是老是出错-_-!后台使用asp,没演示下载地址:http://www.<span class="t_tag" onclick="function onclick(){tagshow(event)}">ajaxa.cn/article/
2009-10-13 15:29:00 1128
转载 在选择列表中无效,因为该列既不包含在聚合函数中,也不包含在 GROUP BY 子句
下面这个就是报“在选择列表中无效,因为该列既不包含在聚合函数中,也不包含在 GROUP BY 子句”问题语句select shipcountry,sum(shipvia) as totalvia,OrderDate as thefirsttime from orders group by shipcountry 下面是通过的,请注意orderdateselect shipcountry
2009-10-11 21:37:00 1887
转载 sql convert函数
CONVERT(data_type,expression[,style]) convert(varchar(10),字段名,转换格式)说明:此样式一般在时间类型(datetime,smalldatetime)与字符串类型(nchar,nvarchar,char,varchar)相互转换的时候才用到.语句 结果SELECT CONVERT(varchar(100), GETDA
2009-10-11 17:21:00 916
转载 在html 静态页面中引用外部页面 Include
在jsp页面中引用外部页面很简单,使用以下语句就可以:include file="要引用的页面" ->但是在html 静态页面中引用外部页面则没那么方便,主要方法有:1.使用框架来实现,但是那样占用线程较多,速度慢;加上它的一些属性可以实现一些透明,无滚动条等具体的效果.大家可以html教程的相关介绍2.使用. js脚本来实现就是把相关的html文件转化为js文件.再在调用的时候用js">或,此时
2009-10-09 20:50:00 9143
转载 如何计算网站的PR值?(PR值的计算公式)
一般说来,PR值越高,反映在在搜索结果中的排名越靠前(重要新越高),当前有很多人通过很多方式来提高自己网站的PR值,除网站内部的优化外,大多数人采用的是外部链接。 如下: PR(A) = (1-d) + d(PR(t1)/C(t1) + ... + PR(tn)/C(tn)) 其中PR(A)表示的是从一个外部链接站点t1上,依据Pagerank?系统给你的网站所增加
2009-10-01 22:12:00 2896
用于中文分词的中文词库包
2010-01-04
Java聊天室程序源码
2009-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人