![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
信息检索
文章平均质量分 85
约定写代码
虽然8年前开始学习更好,但今天开始学习,总要好过明天再开始。
展开
-
三种平滑方法
为了理解《LETOR: A benchmark collection for research on learning to rank for information retrieval》中提出的数据特征中的三个:LMIR.ABS、LMIR.DIR、LMIR.JM的计算方法,我查阅了很多资料。前面一篇博客是理解。这一篇也是。这篇博客的内容来自《A Study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retr原创 2022-03-09 16:00:45 · 1224 阅读 · 0 评论 -
Jelinek-Merer与Absolute discounting 平滑方法
Jelinek-MererJelinek-Merer平滑方法的基本思想是利用低元n-gram模型对高元n-gram模型进行线性插值。PML(wi∣wi−1)=c(wi,wi−1)c(wi−1)P_{ML}(w_i|w_{i-1})=\dfrac{c(w_i,w_{i-1})}{c(w_{i-1})}PML(wi∣wi−1)=c(wi−1)c(wi,wi−1)c(wi,wi−1)c(w_i,w_{i-1})c(wi,wi−1)是指词i和词i-1共同出现的次数。PML(wi)=c(w原创 2022-03-08 17:47:23 · 1110 阅读 · 0 评论 -
learning to rank评价指标
文章目录1 准确率Mean average precision1.1 定义1.2 计算2 NDCG(Normalized Discounted Cumulative Gain)2.1定义2.2 例子1 准确率Mean average precision1.1 定义Precision at position k (P@k)是一个衡量排名前k位的方法,使用两个级别(相关的和不相关)的相关性判断。公式:P@k=1k∑j=1krjP@k=\dfrac{1}{k}\sum^{k}_{j=1}r^jP@k=原创 2022-03-07 17:49:07 · 312 阅读 · 0 评论 -
文档排序模型--查询似然Query Likelihood
在概率模型中,我们定义排序函数是基于文档与查询之间的相关度、可能性来做的。f(d,q) = p(R=1|d,q), R ∈\in {0,1}。概率模型有几个小分类: 经典概率模型——>BM25 语言模型Language Model —–>Query Likelihood Divergence from randomness—–>PL2 1 查询似然算法 语言模型的假设是:p转载 2017-09-02 22:24:07 · 4592 阅读 · 0 评论 -
文本搜索系统的评估
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 这部分本应该继续说反馈(FeedBack)的。但是课程中安排的是评估(Evaluation)。评估是用于衡量搜索引擎质量的。反馈是为了提高搜索引擎质量而进行的操作。所以在讲反馈之前需要先说明评估。1为什么做评估 为什么要评估搜索引擎呢?一方面是为了评估搜索引擎是否有用,另一方面用于比较不同算法、转载 2017-08-28 22:23:55 · 2002 阅读 · 0 评论 -
互联网搜索引擎
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。1 挑战 互联网搜索引擎与一般搜索引擎的区别主要在以下问题。 第一是数据量(scalability)。互联网搜索需要处理的数据量大,如何保证能有效地处理这些数据,保证搜索的完整性,同时搜索速度也要在可接受范围内。解决策略:索引时候并行处理,搜索时候分布式处理。 第二个是如何衡量数据质量,过滤垃转载 2017-09-08 18:42:04 · 3269 阅读 · 0 评论 -
构建一个文本搜索系统
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。1 TR的主要构成 在文章中文本检索系统=全文检索系统=TR System 从图中看到(红色的方框)TR的主要过程有:分词(Tokenizer)、索引(Indexer)、打分(Scorer)、反馈(Feedback) 四个部分。 如果把用户发起搜索操作得到检索结果这一过程称为线上(Online转载 2017-08-17 22:18:02 · 3545 阅读 · 0 评论 -
反馈(Feedback)
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 终于到了第四部分了。之前提到过的,一个文本检索系统=分词+索引+打分+反馈。前面三部分都已经在前面的文档中介绍了。现在看反馈。反馈是根据用户的动作反馈,对现有的搜索引擎做改进。反馈的类型 文本检索的相关度反馈分为三种类型:显示反馈、伪反馈、隐式反馈。显示反馈 Explicit Feedbac转载 2017-09-03 21:22:29 · 2782 阅读 · 1 评论 -
文档排序--相似度模型--VSM
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 上文提到文档排序函数是TR的核心。文档排序函数的实现有几种思路,其中一种是基于相似度的模型。这种模型具体是用空间向量模型(Vector Space Model)实现。这篇文章就介绍VSM。VSM概念什么是VSM VSM定义了两点。 第一,用词向量(term v...原创 2017-08-14 09:02:43 · 9693 阅读 · 4 评论 -
文本搜索
什么是文本搜索(Text Retrieval) 存在一个文档集,用户输入查询语句表示查询需求,搜索引擎返回搜索结果。这个过程一般被称为信息检索。但其实信息检索的范围更广泛。信息检索报告:文本检索、图片检索、视频检索等。TR的特点 1 数据是非结构化的,并且有歧义; 2 查询语句是有歧义的,是不完整的; 3 返回的结果是与查询条件相关的 4 TR是一个经验主义的问题 TR的公式 计算R转载 2017-08-14 02:20:23 · 1121 阅读 · 0 评论 -
自然语言处理与文本检索
今天开始把翟成祥教授的全文检索课程做一下笔记。文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。nlp的主要内容 1 词语处理(lexical analysis = part-of-speech tagging):分词与词性标注 2 句法分析(syntactic analysis):句法树、依存关系分析 3 语义分析(semantic analysis): Dog(d1).转载 2017-08-14 01:38:17 · 5223 阅读 · 0 评论