- 博客(5)
- 收藏
- 关注
原创 FastText
FastTextFastText是facebook开源的一个词向量与文本分类工具 ,其最大的优点就是快,同时不失精度。 此算法有两个主要应用场景:文本分类词向量训练FastText原理简介模型简单,其结构有点类似word2vector中的CBOW架构,如下图所示。FastText将句子特征通过一层全连接层映射到向量空间后,直接将词向量平均处理一下,就去做预测。使用了n-gram的特征,使得句子的表达更充分。笔者会在实战中详细介绍这部分的操作。使用 Huffman算法建立用于表征类别的树形
2020-07-06 23:50:25 206
原创 CS22n Lecture 13 Contextual Word Representations and Pretraining
CS22n Lecture 13 Contextual Word Representations and PretrainingReflections on word representationsTips for unknown words with word vectors训练时:词汇表 Vocab 为{ words occurring, say, $\geq$5 times} ⋃\bigcup⋃ {< UNK >}将所有罕⻅的词(数据集中出现次数小于 5)都映射为< UN
2020-07-04 09:58:46 139
原创 CS224n - Subword Model
文章目录CS224n - Subword ModelCharacter-Level ModelsSub-word modelsByte Pair EncodingWordpiece/Sentencepiece modelCharacter-level to build word-levelHybrid NMTFastText embeddingsCS224n - Subword ModelCharacter-Level Models词嵌入可以由字符嵌入组成为未知单词生成嵌入相似的拼写共享相似的
2020-06-30 22:49:40 164
原创 CS224N Word Vectors 2 and Word Senses
文章目录CS224N Word Vectors 2 and Word SensesOptimization: Gradient Descent梯度下滑迭代梯度下滑方法基于统计的词向量Dimensionality Reduction on XHacks to XGlove构建词向量和共现矩阵之间的关系优势评估词向量内在词向量评估CS224N Word Vectors 2 and Word SensesOptimization: Gradient Descent梯度下滑迭代θnew=θold−α∇θJ(
2020-06-27 22:37:22 157
原创 CS224n Note -- Lecture 1: Introduction and Word Vectors
文章目录词向量WordnetWordnet的劣势discrete symbolsRepresenting words by their contextWord2vecWord2vec的目标函数计算Word2vec prediction function梯度优化词向量WordnetWordNet, 一个包含同义词集和上位词的辞典。Wordnet的劣势是很好的资源但忽略了细微的一些差别:例如词典中‘proficient’与‘good’认为是同义词,但是这只在某些文本上下文中成立。忽略了一些单
2020-06-24 13:06:24 145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人