- 博客(5)
- 收藏
- 关注
原创 Lucene 搜索 简化开发 感想
最近在做 hadoop+hive 相关的项目时,中间好几次被搜索项目那边叫去 写附加搜索功能(添加其他搜索规则,用Lucene实现),总是觉得那边需求一变或增加,就要投入精力去重新添加代码(其实很多都是类似)。在经历过后,就一直在想有没有偷懒的方法,正好昨天在写Hive一半的时候,突然相当一条。因为Hive是通过编写HQL语句,然后引擎对此解析,转化为MapReduce工作模型,是一种简化...
2011-08-26 14:48:55 116
原创 Python 简洁学习
最近由于项目需要,在这个周末简单学习了下Python,听网上说google员工学习python通常几天搞定。如果你熟悉其他语言,的确可以这么说,边学边用才是最好的实践道理,否则学了些永远用不到的也是得不偿失啊! 这里介绍2本书: <a byte of python> 英文阅读地址:http://www.ibiblio.org/swaroopch/byteofpy...
2011-08-21 16:48:37 111
简单的新词识别
最近工作中涉及到新词的识别,在漫长的程序运行期间,记录下相关心得。这里为较原始的新词识别算法,起到一个了解的作用。 新词: 指未在已经训练完的词库或语料库中大量出现的词称为新词(很多情况下也成为未登录词)。 目前新词识别的技术主要包括3个方向:1. 基于规则;2. 基于统计概率;3. 规则和统计相结合; 1. 基于统计 基于统计的新词识别技术包括 {词之间互信息,...
2011-07-26 15:40:17 381
神经网络的分类分析
人工神经网络作为智能算法的一种,一直以来在实践方面取得了一定的成就,比如数字识别、信号处理、数据预测、内容分类等等,但是在理论方面还是缺乏相关的严格数学分析与证明。 至于神经网络的相关算法分析将在以后的文章中介绍,这里先介绍下神经网络的分类原理,不足之处请大家指教,相互进步。 神经网络为什么能分类?又是如何分类的?以下是本人在相关研究中阅读到一些理解 图 1.1 ...
2011-03-16 22:50:03 1119
原创 Lucene PrefixQuery
在通常情况下,搜索提示一般需要用到前缀查询,即:匹配以XXX开头的语句内容。也可以看作正则表达式的XXX*如查询:中。则提示应该显示:中国、中央、中间。。。等等。 Lucene中的PrefixQuery即满足此要求。但是在建索引的时候需要注意最好不要分词,否则搜索有问题。 应该改为:field = new Field("FIELD",indexString,Store.YE...
2011-03-04 11:13:13 151
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人