技术点:
需要整理研究的搜索引擎技术点(目录,无实际价值)
(一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,断句与分块
2,字符类型设计与识别(中文,英文,数字,半角,全角).
3,从已断句子中分析提取字符类型相同的连续字串.
4,字典类设计
5,分词算法设计
5.1,数字英文分词算法设计
5.2,中文分词算法设计
(二)分词应用部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,标签抽取
2,文本相关性与文本分类
2.1,SVM算法
(三)Web Spider开发----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
1,网页编码自动识别
2,Url去重算法----------没有实现
2.1,Bloomfilter算法
2.2,CRC算法
3,Spider的抓取流程与架构----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
3.1,抓取页面
3.2,页面落地
3.3,通知队列
3.4,分析提取有效信息
3.5,失效信息清理
(四)搜索引擎应用开发
1,中文相似词识别
1.1,音似词识别
1.2,形似词识别
1.3,义似词识别
2,Lucene索引技术
2.1,分词器ChineseAnalyzer设计----------由paoding来解决
2.2,索引优化技术
2.3,索引分布存储
2.4,索引压缩存储
2.5,消除噪音------------通过htmlparse的filter来解决
3,Lucene搜索技术
3.1,分类搜索
3.2,排序搜索
3.3,基于应用需求改进Lucene的默认排序算法
3.4,搜索性能优化
Singleton模式的Analyzer
Cache下的Analyzer
搜索结果的Cache(基于MemCache)
需要整理研究的搜索引擎技术点(目录,无实际价值)
(一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,断句与分块
2,字符类型设计与识别(中文,英文,数字,半角,全角).
3,从已断句子中分析提取字符类型相同的连续字串.
4,字典类设计
5,分词算法设计
5.1,数字英文分词算法设计
5.2,中文分词算法设计
(二)分词应用部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,标签抽取
2,文本相关性与文本分类
2.1,SVM算法
(三)Web Spider开发----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
1,网页编码自动识别
2,Url去重算法----------没有实现
2.1,Bloomfilter算法
2.2,CRC算法
3,Spider的抓取流程与架构----------由heritrix来解决,但下面的项目是否全部解决,还没有验证
3.1,抓取页面
3.2,页面落地
3.3,通知队列
3.4,分析提取有效信息
3.5,失效信息清理
(四)搜索引擎应用开发
1,中文相似词识别
1.1,音似词识别
1.2,形似词识别
1.3,义似词识别
2,Lucene索引技术
2.1,分词器ChineseAnalyzer设计----------由paoding来解决
2.2,索引优化技术
2.3,索引分布存储
2.4,索引压缩存储
2.5,消除噪音------------通过htmlparse的filter来解决
3,Lucene搜索技术
3.1,分类搜索
3.2,排序搜索
3.3,基于应用需求改进Lucene的默认排序算法
3.4,搜索性能优化
Singleton模式的Analyzer
Cache下的Analyzer
搜索结果的Cache(基于MemCache)