mis1205-CSDN博客

原创 FastText

FastTextFastText是facebook开源的一个词向量与文本分类工具，其最大的优点就是快，同时不失精度。此算法有两个主要应用场景：文本分类词向量训练FastText原理简介模型简单，其结构有点类似word2vector中的CBOW架构，如下图所示。FastText将句子特征通过一层全连接层映射到向量空间后，直接将词向量平均处理一下，就去做预测。使用了n-gram的特征，使得句子的表达更充分。笔者会在实战中详细介绍这部分的操作。使用 Huffman算法建立用于表征类别的树形

2020-07-06 23:50:25 206

原创 CS22n Lecture 13 Contextual Word Representations and Pretraining

CS22n Lecture 13 Contextual Word Representations and PretrainingReflections on word representationsTips for unknown words with word vectors训练时:词汇表 Vocab 为{ words occurring, say, $\geq$5 times} ⋃\bigcup⋃ {< UNK >}将所有罕⻅的词(数据集中出现次数小于 5)都映射为< UN

2020-07-04 09:58:46 139

原创 CS224n - Subword Model

文章目录CS224n - Subword ModelCharacter-Level ModelsSub-word modelsByte Pair EncodingWordpiece/Sentencepiece modelCharacter-level to build word-levelHybrid NMTFastText embeddingsCS224n - Subword ModelCharacter-Level Models词嵌入可以由字符嵌入组成为未知单词生成嵌入相似的拼写共享相似的

2020-06-30 22:49:40 164

原创 CS224N Word Vectors 2 and Word Senses

文章目录CS224N Word Vectors 2 and Word SensesOptimization: Gradient Descent梯度下滑迭代梯度下滑方法基于统计的词向量Dimensionality Reduction on XHacks to XGlove构建词向量和共现矩阵之间的关系优势评估词向量内在词向量评估CS224N Word Vectors 2 and Word SensesOptimization: Gradient Descent梯度下滑迭代θnew=θold−α∇θJ(

2020-06-27 22:37:22 157

原创 CS224n Note -- Lecture 1: Introduction and Word Vectors

文章目录词向量WordnetWordnet的劣势discrete symbolsRepresenting words by their contextWord2vecWord2vec的目标函数计算Word2vec prediction function梯度优化词向量WordnetWordNet, 一个包含同义词集和上位词的辞典。Wordnet的劣势是很好的资源但忽略了细微的一些差别：例如词典中‘proficient’与‘good’认为是同义词，但是这只在某些文本上下文中成立。忽略了一些单

2020-06-24 13:06:24 145

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人