自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Lucene 搜索 简化开发 感想

最近在做 hadoop+hive 相关的项目时,中间好几次被搜索项目那边叫去 写附加搜索功能(添加其他搜索规则,用Lucene实现),总是觉得那边需求一变或增加,就要投入精力去重新添加代码(其实很多都是类似)。 在经历过后,就一直在想有没有偷懒的方法,正好昨天在写Hive一半的时候,突然相当一条。 因为Hive是通过编写HQL语句,然后引擎对此解析,转化为MapReduce工作模型,是一种简化...

2011-08-26 14:48:55 87

原创 Python 简洁学习

最近由于项目需要,在这个周末简单学习了下Python,听网上说google员工学习python通常几天搞定。 如果你熟悉其他语言,的确可以这么说,边学边用才是最好的实践道理,否则学了些永远用不到的也是得不偿失啊!   这里介绍2本书:   <a byte of python>  英文阅读地址:http://www.ibiblio.org/swaroopch/byteofpy...

2011-08-21 16:48:37 101

简单的新词识别

最近工作中涉及到新词的识别,在漫长的程序运行期间,记录下相关心得。这里为较原始的新词识别算法,起到一个了解的作用。   新词: 指未在已经训练完的词库或语料库中大量出现的词称为新词(很多情况下也成为未登录词)。     目前新词识别的技术主要包括3个方向:1. 基于规则;2. 基于统计概率;3. 规则和统计相结合;   1. 基于统计 基于统计的新词识别技术包括 {词之间互信息,...

2011-07-26 15:40:17 354

神经网络的分类分析

人工神经网络作为智能算法的一种,一直以来在实践方面取得了一定的成就,比如数字识别、信号处理、数据预测、内容分类等等,但是在理论方面还是缺乏相关的严格数学分析与证明。   至于神经网络的相关算法分析将在以后的文章中介绍,这里先介绍下神经网络的分类原理,不足之处请大家指教,相互进步。   神经网络为什么能分类?又是如何分类的?以下是本人在相关研究中阅读到一些理解   图 1.1 ...

2011-03-16 22:50:03 1086

原创 Lucene PrefixQuery

在通常情况下,搜索提示一般需要用到前缀查询,即:匹配以XXX开头的语句内容。也可以看作正则表达式的XXX* 如查询:中。 则提示应该显示:中国、中央、中间。。。等等。   Lucene中的PrefixQuery即满足此要求。但是在建索引的时候需要注意最好不要分词,否则搜索有问题。   应该改为:field = new Field("FIELD",indexString,Store.YE...

2011-03-04 11:13:13 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除