小知识点

最新推荐文章于 2023-03-21 18:33:34 发布

weixin_35389463

最新推荐文章于 2023-03-21 18:33:34 发布

阅读量120

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_35389463/article/details/88916518

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

词嵌入（word embeddings）常用于计算两个词语之间的语义相似性，或者找出与目标词语最相似的词语。word2vec和GloVe等词嵌入已经成为寻找单词间语义相似度的标准方法。分布式向量或词嵌入向量基本上遵循分布式假设，即具有相似语义的词倾向于具有相似的上下文词，因此这些词向量尝试捕获邻近词的特征。分布式词向量的主要优点在于它们能捕获单词之间的相似性，使用余弦相似性等度量方法评估词向量之间的相似性也是可能的。
计算文本相似度常用余弦相似度（cosine similarity）。还有别的方法：欧式距离，曼哈顿距离，切比雪夫距离，simhash+汉明距离
常见的NLP任务：1.词性标注 2.句法分析 (依存句法分析和成分句法分析) 3.命名实体识别 4.情感分类 5.语义角色标注 6.机器翻译 7.问答系统 8.上下文嵌入
使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。从之前AI2的 ELMo，到 OpenAI的fine-tune transformer，再到Google的这个BERT，全都是对预训练的语言模型的应用。
wordVec和Glove 可以学习到一些词汇在语义和语法上的信息。由于它是固定的，所以它无法根据上下文去表示一个词语，也无法解决一词多义的问题。
什么是好的词向量:1.能够反映出语义和语法的复杂特征 2.能够准确的对不同上下文进行反应
对于序列标注问题，可以简单的理解为分类问题，既然是分类，为什么NLP中通常不直接用softmax等分类器，而使用CRF\HMM呢?这是因为目标输出序列本身会带有一些上下文关联，而softmax等不能体现出这种联系。当然，CRF体现的不仅仅是上下文的联系，更重要的是利用viterbi算法，体现的是一种路径规划的概率。另外，通常在NLP中，输入每个batch的语句长度是不一样的（单个batch语句长度可以通过padding补齐），如果用CNN做特征提取的话，batch之间的结果的维度是不同的。而采用CRF的话，就不用考虑这个维度不同的问题了。
CRF与HMM的区别联系（简单比较）：1.CRF是判别模型(无y的先验概率即p(x|y))，HMM是生成模型 2.CRF是无向图，HMM是有向图。3. CRF可以定义数量更多，种类更丰富的特征函数。总结：CRF比HMM要强大的多，它可以解决所有HMM能够解决的问题，并且还可以解决许多HMM解决不了的问题

weixin_35389463

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小知识点

词嵌入（word embeddings）常用于计算两个词语之间的语义相似性，或者找出与目标词语最相似的词语。word2vec和GloVe等词嵌入已经成为寻找单词间语义相似度的标准方法。分布式向量或词嵌入向量基本上遵循分布式假设，即具有相似语义的词倾向于具有相似的上下文词，因此这些词向量尝试捕获邻近词的特征。分布式词向量的主要优点在于它们能捕获单词之间的相似性，使用余弦相似性等度量方法评估词向量之间...
复制链接

扫一扫