IR&IE
文章平均质量分 97
信息检索与信息提取的课堂笔记
梆子井欢喜坨
这个作者很懒,什么都没留下…
展开
-
从Jaccard到BERT:语义检索的度量手段
原文标题:Semantic Search: Measuring Meaning From Jaccard to Bert作者:James Briggs原文地址:https://towardsdatascience.com/semantic-search-measuring-meaning-from-jaccard-to-bert-a5aca61fc325注:只挑选了干货部分进行翻译目录前言1. 传统搜索1.1 Jaccard Similarity1.2 w-Shingling1.3 Levensht原创 2021-09-30 20:20:17 · 543 阅读 · 0 评论 -
IR&IE笔记:倒排索引表与布尔模型
目录1. 一些基础概念2. 布尔模型3. 倒排索引1. 一些基础概念两个检索有效性参数:IDF逆向文件频率 (Inverse Document Frequency)for term Tjdfjdf_jdfj (document frequency of term Tj) is number of documents in which Tj occurs.可以暂且理解为,某个单词出现次数越小,那文档中出现此单词的概率越小,信息量越高。dfj=1, idfj=logNdfj=N, idfj原创 2020-11-18 23:37:19 · 299 阅读 · 0 评论 -
IR&IE笔记:向量空间模型与扩展的向量空间模型
目录1. Classic Vector Model2. Generalized Vector Space Model1. Classic Vector Model每个词项用一个term vector表示term vector是线性无关的文档向量和查询向量可以被词向量的线性组合表示例如,下图是一个文档向量被两个词项向量所表示:两个文档的相似程度可以用两向量的余弦夹角来进行度量,夹角越小证明相似度越高。但此模型的缺点是假设词向量之间相互独立且正交,未考虑词项之间的相关性。查询向量q和文原创 2020-11-18 17:26:55 · 635 阅读 · 1 评论