NLP
文章平均质量分 89
yuting_
这个作者很懒,什么都没留下…
展开
-
NLP热身赛-docker提交
目的根据Datawhale大佬们提供的baseline训练模型,并通过docker的方式提交到天池比赛,获得自己的分数。通过这次目标导向的学习促进自己对知识的探索和学习赛题要求赛事信息:天池->全球人工智能技术创新大赛【热身赛二】Datawhale提供的baseline(特别感谢~):地址添加链接描述跑通Baseline准备环节win8下载Docker安装问题1.quickstart的快捷方式打不开-问题由于安装过git解决:映射到安装的git/bin目录就好2.docker 一原创 2021-02-22 01:23:07 · 148 阅读 · 0 评论 -
NLP小白学习路线(4)——Contextual Word Embeddings
上一篇我们介绍了Subword Models 模型这一篇将介绍ELMO,GPT &BERTSubword Models 模型是为了解决单词不存在于词汇库中的情况OOV(out-of-vocabulary)。并且对于单词的变换,比如副词,加-ed,-ing这种单词的变形(morphology)处理的问题。并在Word embedding最小单位为单词的基础上,进一步缩小粒度为Character embedding 以单词字符为最小粒度ELMO我们会发现word2vec无法解决一词多义的问原创 2020-07-03 21:23:18 · 369 阅读 · 0 评论 -
NLP小白学习路线(3)——Subword Models
上一篇我们基于窗口的共现矩阵的方法,引入GloVe,并介绍了内部和外部词向量评估机制。这一篇将介绍Subword Models 模型之前介绍的 word2vec 和 glove模型都是基于word单词作为基本单位的,这种方式虽然能够很好的对词库中每一个词进行向量表示,然而会出现冷启动的问题。也就是单词不存在于词汇库中的情况OOV(out-of-vocabulary)。并且对于单词的变换,比如副词,加-ed,-ing这种单词的变形(morphology)处理的也不好。出于这个目的我们引入word原创 2020-06-30 22:47:02 · 231 阅读 · 0 评论 -
NLP小白学习路线(2)——Glove模型
上一篇我们讲到了,怎么让计算机理解人类的语言,那就是构建让计算机可以理解的one-hot向量,但是由于语料库太庞大,one-hot容易导致维度灾难,并且不能计算词之间的相似性,所以我们引入了Word Embedding的概念。Word Embedding 在one-hot的基础上压缩了描述语料库的维度,从原先的V-dim降低为了自己设定的K值,Word Embedding是Word2Vecmo模型的中间产物,是在不断最小化损失函数时候,不断迭代更新生成的。PS: word2vec的经典之作 Xin R原创 2020-06-27 23:07:15 · 340 阅读 · 0 评论 -
NLP小白学习路线(1)——Word Embedding
首先我们要先从机器怎么了解人类的语言说起,对人来说一个单词就是一个单词,但是对计算机来说却不是这样,因为机器是只能理解0和1指令的,那么计算机是如何处理单词或者文本的呢?最简单最直观的做法就是把单词(word)按照某种规则表达成一个向量(vector),y这就是Word Representation。one-hot encoding表达向量?比如:假设我们有这样的两个文本:D1: I like greenD2: I like red那么针对这两个文本所组成的语料库而言,我们会得到如下所示的字典:[原创 2020-06-24 18:38:00 · 501 阅读 · 0 评论