- 博客(5)
- 资源 (17)
- 收藏
- 关注
转载 文本搜索系统的评估
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 这部分本应该继续说反馈(FeedBack)的。但是课程中安排的是评估(Evaluation)。评估是用于衡量搜索引擎质量的。反馈是为了提高搜索引擎质量而进行的操作。所以在讲反馈之前需要先说明评估。1为什么做评估 为什么要评估搜索引擎呢?一方面是为了评估搜索引擎是否有用,另一方面用于比较不同算法、
2017-08-28 22:23:55 2107
转载 构建一个文本搜索系统
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。1 TR的主要构成 在文章中文本检索系统=全文检索系统=TR System 从图中看到(红色的方框)TR的主要过程有:分词(Tokenizer)、索引(Indexer)、打分(Scorer)、反馈(Feedback) 四个部分。 如果把用户发起搜索操作得到检索结果这一过程称为线上(Online
2017-08-17 22:18:02 3605
原创 文档排序--相似度模型--VSM
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 上文提到文档排序函数是TR的核心。文档排序函数的实现有几种思路,其中一种是基于相似度的模型。这种模型具体是用空间向量模型(Vector Space Model)实现。这篇文章就介绍VSM。 VSM概念 什么是VSM VSM定义了两点。 第一,用词向量(term v...
2017-08-14 09:02:43 9800 4
转载 文本搜索
什么是文本搜索(Text Retrieval) 存在一个文档集,用户输入查询语句表示查询需求,搜索引擎返回搜索结果。这个过程一般被称为信息检索。但其实信息检索的范围更广泛。信息检索报告:文本检索、图片检索、视频检索等。TR的特点 1 数据是非结构化的,并且有歧义; 2 查询语句是有歧义的,是不完整的; 3 返回的结果是与查询条件相关的 4 TR是一个经验主义的问题 TR的公式 计算R
2017-08-14 02:20:23 1151
转载 自然语言处理与文本检索
今天开始把翟成祥教授的全文检索课程做一下笔记。文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。nlp的主要内容 1 词语处理(lexical analysis = part-of-speech tagging):分词与词性标注 2 句法分析(syntactic analysis):句法树、依存关系分析 3 语义分析(semantic analysis): Dog(d1).
2017-08-14 01:38:17 5248
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人