
搜索引擎
文章平均质量分 69
eaglet
这个作者很懒,什么都没留下…
展开
-
用一行程序去除全文中连续的空格和空行
处理全文时我们经常需要对全文进行一定的压缩,去除全文中连续出现的空格 ,空行以及Tab。当然我们可以写一个程序对全文进行分析判断,达到我们所希望的效果。本文介绍的方法只需一行程序就可以达到去除两个以上连续空格和空行的效果。程序如下using System.Text.RegularExpressions; String inputStr = "xxx /r/n原创 2007-05-05 09:38:00 · 2256 阅读 · 6 评论 -
KTDictSeg 1.4正式版(1.4.2 版本)发布
1.4.2 版本是 1.4 正式版,该版本修改了 1.4.1 版本的一些错误。1、 修改 dotnetpager 一处bug2、 KTDictSeg.HighLight 当查不出结果时应返回空字符串,1.4.1版本是返回全文3、 支持 Lucene.net 2.3 版本4、 修改分词权重不对的bug5、 搜索英文不能高亮,原因是KTDictSeg.HighLight对大小原创 2008-11-17 14:00:00 · 2080 阅读 · 5 评论 -
不选择使用Lucene的6大原因(转载) - Hubble.net 将尽可能解决这些问题
原文: 不选择使用Lucene的6大原因 Lucene是开放源代码的全文搜索引擎工具包,凭借着其强劲的搜索功能和简单易用的实现,在国内已经很普及,甚至一度出现了言搜索必称Lucene的盛景。上个月Lucene的开发团队发布了 Java Lucene 2.3.1,相信很多朋友们都用上了。在国内对Lucene的介绍可以分为3块儿: 第一类是:以车东 的Lucene转载 2009-03-12 18:18:00 · 2259 阅读 · 1 评论 -
T-SFQL 0.1
T-SFQL 0.1 <spanstyle=font-size:18.0pt><spanstyle=mso-spacerun:yes> TOC /o "1-3" /h /z /u Copyright <spanstyle=color:windowtext;display:none;mso-hide:screen;text-decoration:n原创 2009-05-25 09:32:00 · 1782 阅读 · 0 评论 -
Hubble.net 持久化方面3个重大改进
Hubble.net 持久化方面3个重大改进 Author:Eaglet 1.持久的DocId Hubble.net 采用的持久的 DocId,即DocId 永远不会改变,而 lucene.net 的 DocId是动态的。这导致Lucene无法用DocId 做主键和别的数据进行整合 所以Lucene的全文内容和全文索引必须要建在一起,不能单独只建索引,而通过DocI原创 2009-05-25 09:33:00 · 894 阅读 · 1 评论 -
Hubble.net V0.2 版本正式生成
Hubble.net V0.2 版本正式生成 Author: eaglet Hubble.net V0.2 版本历时将近半年时间,终于全部结束,期间走了一些弯路,耽误了一些时间。 V0.2 版本是Hubble.net 的一个重要基石,该版本完成了一下功能和改进 1.文件索引 完成了将倒排索引持久化到文件的功能。 2.元数据索引 可以对原创 2009-08-29 11:47:00 · 549 阅读 · 0 评论 -
Hubble.net V0.3 版本正式生成
Hubble.net V0.3 版本正式生成author: eagletHubble.net 0.3 版本实现了如下功能:1. 记录的修改可以单个或批量修改记录。记录修改分为两种情况,如果只修改元数据不修改全文数据,则直接更新索引,并修改数据库中相应记录的元数据。如果修改全文数据,则删除原来记录并重新添加一条新的记录(这种情况下更新数据和Lucene的方法是一样的)2原创 2009-08-29 12:04:00 · 2647 阅读 · 0 评论 -
Hubble.net 值得纪念的一天
今天(2009-7-30)是Hubble.net 值得纪念的一天,从开始规划Hubble.net到今天已经8个多月,从0.1到0.2再到0.3再到0.4,每个版本都是一个故事,这期间不知道到解决了多少难题也不知道度过了多少个不眠之夜。多少次我一个人走在林荫道上考虑着一个又一个算法,多少次我看不到希望想放弃,但最后还是咬牙坚持。没有人和我讨论和交流,我就这样一个人寂寞的走着走着,看不到原创 2009-08-29 12:06:00 · 3227 阅读 · 5 评论 -
盘古分词--功能简介
盘古分词--功能简介作者:eaglet 两年前我开发了一个KTDictSeg中文分词组件,这个组件推出2年来受到很多朋友的喜爱。不过由于我当初开发KTDictSeg时比较仓促,底子没有打好,而且当时对分词的理解也比较肤浅,所以KTDictSeg组件存在很多问题,我一直想重新开放一个更好的开源分词组件,但一直没有抽出时间。上周我终于下定决心开始做这个事情,经过两原创 2009-08-29 12:08:00 · 7864 阅读 · 7 评论 -
盘古分词-中文人名识别
盘古分词-中文人名识别作者: eaglet eaglet 曾经在KTDictSeg 中分别尝试使用规则和统计方式来识别中文(汉族)人名,但效果都不理想。在盘古分词中eaglet另辟它径,采用一种新的算法来识别中文人名,效果相比规则和统计方式要好很多。下面eaglet就来介绍这种中文人名的识别方法。 要很好的识别中文人名,我们需要对要分解的句子按预处理和消除歧义原创 2009-08-29 12:09:00 · 5162 阅读 · 1 评论 -
Hubble.net 建表语句 Create Table
语法[Directory(directory)][IndexOnly] –Optional[ForceCollectCount(count)] -Optional[DBTableName(table name)] –Optional[DBAdapter(adapter name)][DBConnect(connection string)]CREATE TABLEt原创 2009-12-15 11:48:00 · 3498 阅读 · 2 评论 -
Hubble.Net 全文数据库开源项目
Hubble.Net 全文数据库开源项目 项目简介Hubble.Net 全文数据库开源项目是一个建立在 .net 框架基础上的由中国程序员主导的全文数据检索开源项目。项目旨在为全文检索开发者或用户提供一个简单易用、高性能、高可用性的全文数据库中间件。Hubble.Net的骨干版本提供最基本的全文检索接口和界面,并被设计为高度可扩展的系统架构,以吸引众多的开发者参与进系统扩展功能的研发和原创 2008-10-30 06:40:00 · 2515 阅读 · 0 评论 -
KTDictSeg 1.4 版本功能介绍 - 多元分词
KTDictSeg 1.4 版本功能介绍 - 多元分词 作者:肖波 KTDictSeg 1.4 开发了多元分词算法,其与lucene.net 配合构建全文搜索,经测试准确度接近google和baidu的水平。现将一些实现方法和测试结果公布出来,供关心分词和搜索技术的朋友们参考。 中文分词按照分词粒度来分,分成一元分词,二元分词,多元分词和精确分词等类型。一元分原创 2008-10-02 16:38:00 · 1799 阅读 · 4 评论 -
如何确定中文字符串的相似度
如何确定中文字符串的相似度 作者:肖波个人博客:http://blog.csdn.net/eagletEmail:blog.eaglet@gmail.com2007/4 南京 摘要在数据挖掘的研究中,我们往往需要判断文章是否雷同,对类似文章或短句进行归类处理等,这其中就会遇到这样的问题:如何确定两个字符串之间的相似程度。本文综合作者的实际工作经验和数据挖掘理论,原创 2007-04-28 15:22:00 · 5548 阅读 · 8 评论 -
KTDictSeg 一种简单快速准确的中文分词方法
作者:肖波个人博客:http://blog.csdn.net/eaglet2007/5 南京 这段时间通过研究目前在互联网上可以搜索到的中文分词算法,感觉很难找到既快又准的分词方法,通过几天时间的研究,我终于找到了一种快速且较准确的中文分词方法。现在回过头来想想,觉得其实问题并不很复杂,对于一般应用,我觉得这个算法应该基本够用了,当然目前没有一种方法可以达到100%的分词准确原创 2007-05-24 18:18:00 · 7243 阅读 · 6 评论 -
中文分词组件 KTDictSeg 1.2 版本发布及算法简介
作者:肖波个人博客:http://blog.csdn.net/eaglet2007/6 南京 经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能1、 增加了中文人名判断 2、 增加了正向匹配分词和反向匹配分词的选项 3、 增加了停用词过滤 4、 增加了词性标注 该版本对算法进行了改进算法步骤如下原创 2007-06-02 20:30:00 · 2535 阅读 · 23 评论 -
人民日报1998年中文标注语料库及读取代码
人民日报1998年中文标注语料库及读取代码代码作者:肖波语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了原创 2007-09-10 13:27:00 · 14529 阅读 · 3 评论 -
Lucene 及 Lucene.net 国内外的一些学习资源汇总
目前互联网上关于Lucene 及 Lucene.net 的文章很多,看了一些,感觉绝大部分还是偏向于应用,真正深入探讨其核心算法的文章不是太多,最近打算深入研究一下Lucene.net,把一些关键技术 点的核心算法搞清楚。在开始做这个工作之前,先对目前互联网上可以利用的资源做个汇总,算是抛砖引玉吧,还望网友们多来补充,大家共同学习! lucene 官方网站, Luncene原创 2008-07-04 11:16:00 · 968 阅读 · 0 评论 -
修改 highlighter.net-1.4.0 一处Bug
最近在做KTDictSeg 的 1.3 版本,在这个版本中做了一个用Lucene.net 搜索新闻的例子,其中生成关键词摘要用了highlighter.net-1.4.0版本,发现中文关键词摘要生成结果总是不对,但英文的结果是对的。没办法,只得把highlighter.net的源码拿出来调了一遍,最终发现问题在TokenGroup类的IsDistinct函数上。该函数源码如下 i原创 2008-05-06 19:01:00 · 980 阅读 · 2 评论 -
修改 lucene Highlighter.net 2.0 版本一处Bug
修改 HighLight.net 2.0 版本一处Bug作者:肖波 最近我的博客中有两位网友在使用 KTDictSeg 1.3 + lucene.net 2.0 + HighLighter.net 2.0 是出现问题,高度怀疑是HighLight.net 2.0 版本的Bug,今天腾出时间把几个组件的源码全部下下来,调试了一把,终于找到了这个Bug,下面把Bug的具体原因原创 2008-07-17 09:23:00 · 1735 阅读 · 11 评论 -
KTDictSeg 分词组件1.3版本 部分算法讨论 -- 分词粒度
作者:肖波 KTDictSeg 分词组件1.3版本已经接近完成,只剩下最后的一点功能。在KTDictSeg 分词组件1.3版本的开发过程中,得到了很多朋友的关注和支持,特别是一些分词方面的专家提出了很多很好的意见,也对我的分词算法给出了很多中肯的建议, 在此向他们表示由衷的感谢。1.3版本的预分词算法还是沿用了之前版本的变相的最大匹配算法,这个算法有着本质的缺陷,未来的2.0版本可能会原创 2008-05-30 07:36:00 · 1204 阅读 · 2 评论 -
KTDictSeg 分词组件1.3版本 部分算法讨论 -- 中文姓名识别和未登录词识别
作者 肖波 中文姓名识别和未登录词识别是中文分词中的难点,具体为什么是难点,很多文章都有叙述,这里不再多讲。主要介绍一下 1.3版本是如何对中文姓名和未登录词进行识别的。 中文姓名识别 中文姓名千变万化,我们不可能在字典中把所有的中文人名都列出来。1.2版本对中文人名进行了比较复杂的判断,但效果依然不理想。所以1.3版本干脆简化 了算法。1.3版本的算法主要基于中文人名的前原创 2008-05-30 07:37:00 · 1456 阅读 · 0 评论 -
KTDictSeg 分词组件1.3版本 新增功能列表及下载位置
1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加词频判断功能,在无法取舍时根据词频取舍 4、 增加优先优先词频选项,通过这个选项动态决定分词粒度 需打开 FreqFirst 5、 增加中文人名前后缀统计和根据该统计定位人名的功能 6、 增加中文人名和未登录词出现频率统计功能 7、 增加自原创 2008-05-30 08:25:00 · 1849 阅读 · 12 评论 -
Hubble.net 简介及与Lucene.net 对比测试
Hubble.net经过整整1年的开发,终于可以正式使用了。昨天我发布了第二个测试版本0.7.1.0,这个版本比第一个测试版本性能上有了一定提高。Hubble.net目前还只是提供了一些最基本的功能,很多高级的功能,比如分组统计,消重,多表关联查询等将陆续在后续版本中开发。 系统简介Hubble.net是一个基于.net framework 的开源免费的全文搜索数据库原创 2009-12-15 12:07:00 · 5826 阅读 · 2 评论