自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Contextual Word Representations and Pretraining

一、Word Representations 在2018年之前,我们使用的词向量表征技术主要有三个:Word2Vec、Glove、FastText。但是这三个方法都普遍存在在一些问题,就是无法解决一次多义的问题,即对于同一个词无论上下文的单词是否相同,训练出来的词向量都是一样的。 通常我们训练词向量的时候,首先会初始化所有的词向量,并且在训练过程中不断地改变这些向量的值,需要注意的是训练的目标是我们自己定义的任务,而词向量仅仅是副产物而已。 当我们手中的语料不足时训练出来的词向量效果不会很理想,这是用通常会

2020-07-03 22:28:40 2222

原创 Information from parts of words: Subword Models

1. 有关语言学(linguistics)的启发 语音学(Phonetics)是一种非常基本的理论,只要是正常人,有着相同的人体器官和相同的发声结构,就会遵循着相同的发声规则和原理。 语音体系(Phonology)是有语义的声音的合集,各国各文明的人都会制定自己的语音体系。 音素(Phoneme)是语音中划分出来的最小的语音单位,分为元音和辅音 国际音标(由音素构成)按理来说可以表示所有的语音,但是会发现好多语音是没有语义的,这时我们采取的办法就是看音素的下一级(part of words)。 同样的思想我

2020-06-30 22:18:49 871

原创 Word Vectors、GloVe、 and Word Senses

Word Vectors、GloVe、 、Evaluating、Word Senses Word Vectors 实现 优化,梯度下降计算代价昂贵,随机梯度下降性价比更高,只更新出现的词的向量值,可以缓解矩阵稀疏问题(待研究) 降采样可以提高效率,原理与实现待研究 https://zhuanlan.zhihu.com/p/29488930 GloVe Evaluating Word Senses GloVe Evaluating ...

2020-06-27 23:59:00 236

原创 word vetor

@TOCword vetor 1\计算机的运算都是数字,在处理语言时做的也是数据运算,语言由词汇含一定语法组成,词汇需要数字化表示,one-hot 可以算作一种,假设世界只有 “好好学习天天向上”6个字,也用 100000 代表好、010000 代表学 …。但是没法比较相似度,而且词汇量比较大,one-hot需要改进 2\语言中的词和上下文是有“连贯性”的,连贯性以在数学上表现起来就是相近的数字,一维不够,则出现了多维,多个数字组成一个向量 。几何上像是一个词嵌入在一个多维空中的合适的位置 3\一段语言本来

2020-06-24 21:07:33 222

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除