搜索引擎
smile678910
我很希望和大家交流一下开发经验
展开
-
全文检索
全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。关于全文检索1.只处理文本。2.不处理语义。3.搜索时英文不区分大小写。4.结果列表有相关度排序。在信息检索工具中,全文检索是最具通用性和实用性的。原创 2013-07-18 22:29:21 · 939 阅读 · 0 评论 -
Tomcat环境下使用JNI调用中科院ICTCLAS分词
使用SSH框架开发应用将程序部署到Tomcat,由于有一个程序使用JNI调用中科院ICTCLAS分词,部署到tomcat下报no ICTCLAS in java.library.path提示为无法找到ICTCLAS动态库,此时只需将中科院分词JNI包下的内容复制到/bin目录中或jar程序运行目录中即可。原创 2013-08-24 11:18:38 · 1102 阅读 · 0 评论 -
Eclipse环境下使用JNI调用中科院ICTCLAS分词
下载中科院分词程序包如:ICTCLAS50_Windows_32_JNIEclipse中新建工程,并将分词程序需要的数据拷贝到工程根目录将对应的JNI程序拷贝到工程中,对应的内容如下:package ICTCLAS.I3S.AC;public class ICTCLAS50{ //public enum eCodeType //{ // CODE_TYPE_U原创 2013-08-17 16:57:18 · 1025 阅读 · 0 评论 -
Lucene介绍
Lucene 是一个最为流行的基于Java 的高性能开源全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能,利用它可以轻易地为Java软件加入全文搜寻功能。目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene原创 2013-07-30 22:38:14 · 727 阅读 · 0 评论 -
结构化数据和非结构化数据
我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。半结构化数据,如XML,HTML,JSON 等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。 对结构化数据的搜索:如对数据库的搜索,用 SQL语句。再如对元数据的原创 2013-07-30 21:43:56 · 1244 阅读 · 0 评论 -
夹角余弦与文章相似性比较
对与文章D={D1,D2};D1特征T1={t1,t2,t3};D2特征T2={t1,t3,t4}则有T={t1,t2,t3,t4}计算D1中T集合各特征的TFIDF值得到向量V1,计算D2中T集合各特征的TFIDF值得到向量V2计算D1和D2的相似性,可以使用计算这两个向量的相似程度,我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方原创 2013-07-19 22:42:43 · 918 阅读 · 0 评论 -
向量空间模型(VSM)介绍
向量空间模型(VSM:Vector Space Model)是一个应用于信息过滤,信息撷取,索引 以及评估相关性的代数模型,由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量原创 2013-07-19 19:21:18 · 2337 阅读 · 0 评论 -
正向索引和倒排序索引
正向索引:以词为单位,记录每个关键词的词频、格式、位置等权重信息,把页面转换为一个关键词组成的集合。正向索引不能直接用于排名,排名程序需要扫描所有索引库中的文件,找出包含关键词的文件,再进行相关性计算,这样的计算量无法满足实时返回排名结果的要求。 正向索引举例:文档号 关键字 位置1 中国 31原创 2013-07-18 22:13:23 · 2347 阅读 · 0 评论 -
常见相似度量
1. 欧氏距离2. 标准化欧氏距离3. 马氏距离4. 夹角余弦5. 汉明距离6. 相关系数 & 相关距离 1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (3)两个n维向量a(x11,x12,原创 2013-08-14 20:34:01 · 1238 阅读 · 0 评论