NLP
CharlesPoletoWin
SHU
展开
-
NLP(4) 语言模型
倒排表 QA system 中 返回相似度最高的答案,对于知识库,需要计算N次相似度,O(N) 每次相似度计算的复杂度,无法满足实时性要求 解决问题核心思想“层次过滤思想” 遇到问题,O 输入,和所有问题匹配, 10^6 多次过滤 -> 10 ^3 -> 10 ^2;最后通过余弦相似度比较最后5个… 核心思想 过滤依次选取时间复杂度最快的,即过滤器1时间复杂度1>>过滤器...原创 2020-01-26 19:10:32 · 139 阅读 · 0 评论 -
NLP(1) intro
introduction NLP=NLU+NLG U understanding G generation why nlp is harder than computer vision? CV 所见即所得 文本->meaning challenge: multiple ways to express the same meaning ambiguity 一词多义 (1)how to sol...原创 2019-09-24 21:22:40 · 125 阅读 · 0 评论 -
NLP(2)问答系统intro
基于搜索的问答系统 Question从知识库中寻找相似度最高的问题,返回对应问题的答案 对于问题,首先进行分词,然后预处理: 1)拼写检查 2)寻找单词原型 3)stop words 4)words filter 5)同义词 然后文本的表示,将文本转换成向量的形式,结构化的数据,数学中的公式,文本方式: 0,1,1,… Boolean vector const vector tf-if 形式 w...原创 2019-09-28 21:48:46 · 529 阅读 · 0 评论 -
NLP(3)词向量
Measure similarity between words One-hot 和预先相似度无法表示相似 Another Issue: Sparsity 我们 今天 打算 去 爬山 过去的方法 向量的大小和词典大小相同 但是大部分全是0,只有少数不是0,可能只有小于100个非0,10^5 都是0 问题: 不能表示语义相似度 稀疏性 Distributed Representation 向量长度认...原创 2019-09-29 10:41:09 · 266 阅读 · 0 评论