搜索引擎技术点的整理

技术点:
需要整理研究的搜索引擎技术点(目录,无实际价值)

(一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,断句与分块
2,字符类型设计与识别(中文,英文,数字,半角,全角).
3,从已断句子中分析提取字符类型相同的连续字串.
4,字典类设计
5,分词算法设计
5.1,数字英文分词算法设计
5.2,中文分词算法设计

(二)分词应用部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,标签抽取
2,文本相关性与文本分类
2.1,SVM算法


(三)Web Spider开发----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
1,网页编码自动识别

2,Url去重算法----------没有实现
2.1,Bloomfilter算法
2.2,CRC算法

3,Spider的抓取流程与架构----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
3.1,抓取页面
3.2,页面落地
3.3,通知队列
3.4,分析提取有效信息
3.5,失效信息清理

(四)搜索引擎应用开发
1,中文相似词识别
1.1,音似词识别
1.2,形似词识别
1.3,义似词识别

2,Lucene索引技术
2.1,分词器ChineseAnalyzer设计----------由paoding来解决
2.2,索引优化技术
2.3,索引分布存储
2.4,索引压缩存储
2.5,消除噪音------------通过htmlparse的filter来解决

3,Lucene搜索技术
3.1,分类搜索
3.2,排序搜索
3.3,基于应用需求改进Lucene的默认排序算法
3.4,搜索性能优化
Singleton模式的Analyzer
Cache下的Analyzer
搜索结果的Cache(基于MemCache)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值