信息检索-THU-2020春
愉贵妃珂里叶特氏海兰
日拱一卒无有尽,功不唐捐终入海
展开
-
信息检索(四)-- 文本分析及自动标引(Part 1)
1.0 Ranked retrieval现在,我们只能用boolean的方法进行查找。但是,不是每个用户都会写布尔查询,而且布尔查询的结果要么太多(OR),要么太少(AND)1.1 Ranked retrieval models我们希望,可以用Free text 进行查询,而且查询的结果按照相关度排序。Term的自动抽取及其加权Zipf’s law: If the terms in a collection are ranked ® by their frequency (frf_rfr),原创 2020-12-21 16:40:51 · 392 阅读 · 0 评论 -
信息检索(十二)-- 自动文摘
本节只讲了最朴素的方法,但实际上自动文摘有很多可优化的点,在第六次作业中完成。1. Sentence ExtractionRepresent each sentence as a feature vectorCompute score based on featuresSelect n highest-ranking sentencesPresent in order in which they occur in text.Postprocessing to make summary mo.原创 2020-12-21 15:44:52 · 187 阅读 · 1 评论 -
信息检索(十一)-- 文本分类
本章内容和其他课程重合过多,只写了不重合的部分。1 Document classification经常是hierarchical的分类:Steps of Text classification:IndexingDimension reductionWeightingClassifier Evaluation/Optimization1.1 indexingWord (中文分词)CharacterN-gramPhrase: (Syntactically, Statistic.原创 2020-12-21 15:20:37 · 321 阅读 · 0 评论 -
信息检索(十)-- Web信息检索
PageRank 算法 & HITS 算法课上讲的不清楚所以补充一下。一、PageRank1 概述Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如原创 2020-12-21 13:51:08 · 1257 阅读 · 0 评论 -
信息检索(九)--信息检索实验系统SMART及其特点
Clustered FilesSome problems may arise:(1)The size of certain clusters may be too small (a single document each cluster, loose document);(2) The size of certain clusters may become too large (if more homogeneous);(3) The number of clusters produced ma原创 2020-12-21 13:26:53 · 511 阅读 · 0 评论 -
信息检索(八)-- 检索评价
Evaluation of Retrieval: Effectivenes有很多种检索算法,那种是最好的呢?i.e.What is the best component for:Ranking function (dot-product, cosine, …)Term selection (stopword removal, stemming…)Term weighting (TF, TF-IDF,…)“capable of retrieving what they want and of原创 2020-12-21 12:41:00 · 279 阅读 · 0 评论 -
信息检索(七)-- 基于潜在语义分析 (LSI)的信息检索模型
基于潜在语义分析 (LSI)的信息检索模型(本章课上涉及到的内容 too mathy,这里去掉了不常用的过于复杂的数学内容)1、用co-occurence来衡量词和词的相似度term-term matrix: 词语的共现每次选定一个中心词,有一个滑动的小窗,看context word落在以中心词为中心的小窗中。举个栗子:term-document matrix:词语在不同的文档中出现了多少次,可以用它来做Latent Semantic Analysis(LSI)举例:但是,这样的原创 2020-12-21 12:12:15 · 411 阅读 · 0 评论 -
信息检索(六)-- 文本分析及自动标引(Part 3)
Thesaurus及term自动关联上文讲到的wordnet和hownet都是利用了专家知识和大量的人工整理出来的,那么,可不可以自动生成相似的词语呢?Definition: Two words are similar if they co-occur with similar word(类似word2vec的思想)聚类(在数据挖掘中讲过,在这不多涉及)Partitional clustering最典型的是k-means:这是典型的E-M算法思想。E阶段固定参数θ\thetaθ(类中心原创 2020-12-21 11:49:35 · 360 阅读 · 0 评论 -
信息检索(五)-- 文本分析及自动标引part2
文本相似度计算1、bag of words model课上只讲了最简单的一个方法:每个document对应一个由全部vocabulary term 对应的矩阵,每一项就是这个term在该doc中的tf-idf值。就像这样:这个的弊端显而易见:特征维度过高、矩阵稀疏没有考虑词语的顺序,bag of words2、如何计算相似度?只计算欧式距离不是一个好主意…因为:如果我们把一篇文章d原封不动append到自己身上,形成新的文档d’,那么d和d’的欧式距离是很大的,但是两者的夹角为原创 2020-12-21 11:09:58 · 270 阅读 · 0 评论 -
信息检索(三)--信息检索的基本框架part2
对倒排文件的进一步考察1、词汇表的大小到底有多大呢?Heaps’ law: M=kTbM = kT^bM=kTbM is the size of the vocabulary, T is the number of tokens in the collection2、存储空间优化(1) 从vocabulary term入手从存储这些term上来看,如果使用定长的存储空间(比如28bytes/term)的存储结构如下:(使用搜索树来建index)but Fixed-width terms原创 2020-12-20 23:54:17 · 430 阅读 · 0 评论 -
信息检索(二)-- 信息检索基本模型part1
1. 信息检索基本模型For a given information problem, the purpose of the system is to capture wanted items and to filter out unwanted items建indexThe indexing language is either pre-specified (controlled, 由专家决定的) or taken freely from the text of the information it原创 2020-12-20 20:58:43 · 322 阅读 · 0 评论 -
信息检索(一)-- 引言
原创 2020-12-20 20:19:05 · 235 阅读 · 0 评论 -
ROUGE评测标准
简介ROUGE 指标的全称是 (Recall-Oriented Understudy for Gisting Evaluation),主要是基于召回率 (recall) 的。ROUGE 是一种常用的机器翻译和文章摘要评价指标。ROUGE-NROUGE-N 主要统计 N-gram 上的召回率公式的分母是统计在参考译文中 N-gram 的个数,而分子是统计参考译文与机器译文共有的 N-gram 个数。(所以是recall。总共有若干个阳性样本,看你的方法能够找出多少个阳性的)例如:机器译文: a原创 2020-12-17 22:31:41 · 4068 阅读 · 3 评论