自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 资源 (6)
  • 收藏
  • 关注

原创 Ubuntu9.10 下面安装Pidgin2.6.*

  前两天,本打算在Ubuntu上面安装一个Pidgin2.6.4版本的,当时不成功,原因是我的这个版本上面的许多lib文件不存在。今天终于有时间来整理这个玩意儿,功夫不负有心人,折磨了一个多小时,终于安装成功了。  Pidgin在http://pidgin.im/download/source/下载,现在最新版本2.6.5。   Linux下一般程序安装,按照tar解压,然后./co

2010-01-22 15:26:00 1605

双数组 DoubleArray Trie树的数组实现 双数组字典

Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态。在词典中这种状态包括"词前缀","已成词"等。 双数组Trie(Double-ArrayTrie)是trie树的一个简单而有效的实现,由两个整数数组构成,一个是base[],另一个是check[]。设数组下标为i,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值,表示该状态为词语。Check[i]表示该状态的前一状态,t=base[i]+a,check[t]=i

2010-10-26

ACAuto自动机 多模式匹配 多字符串匹配

AC自动机算法的实现。AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基础知识。AC自动机算法分为3步:构造一棵Trie树,构造失败指针和模式匹配过程。本资源简单实现了这些功能。

2010-10-26

B-树实现的中文词典

B-树作为查找作为查找存储结构,中文单词进行哈希,本中文词典规模在十万级别以上,最长逆向匹配算法实现中文分词。

2010-01-14

利用中文标点实现正文提取

利用中文标点来实现正文提取,并且对部分网页建立简单规则的方法,效果较为理想。

2009-12-14

jtidy 用java语言写的 tidy

用java语言实现的tidy,可以对html文档进行规范化处理,得到符合标准的xhtml文档。

2009-10-29

tidyxml 开源代码

对html文档,以及对XML文档进行规范化处理,获得符合标准形式的html文档。

2009-10-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除