文本的表示技术
郭畅小渣渣
这个作者很懒,什么都没留下…
展开
-
Autoencoding neural models to extract word representations
Autoencoding neural models can be used to extract word representations, such as BERT and Autoencoding neural models can be used to extract word representations, such as BERT and VAE. 自动编码神经模型可以用来提取单词表示,如BERT和VAE。原创 2021-01-18 22:17:52 · 950 阅读 · 0 评论 -
文本的表示技术 | (4)句向量
5.4 句向量5.4.1 基于句向量的平均SIF Embedding (Smooth Inverse Frequency Embedding):5.4.2 沿用Word2Vec思想Skip-Thoughts:5.4.3 有监督方式InferSent应用了SNLI(Stanford Natural Language Inference)数据集进行有监督的句子表征学习。...原创 2020-11-23 18:37:14 · 257 阅读 · 0 评论 -
文本的表示技术 | (3)改进后的词表征
5.3 改进后的词表征5.3.1 Glove模型5.3.2 FastText模型5.3.3 ELMo原创 2020-11-23 18:24:59 · 164 阅读 · 0 评论 -
文本的表示技术 | (2)Word2Vec词向量
5.2 Word2Vec词向量5.2.1 Word2Vec的基本原理词嵌入(Word Embedding):Word2Vec包含两种深度学习的模型:1.CBOW(Continuous Bag-of-Words):2.Skip-Gram5.2.2 Word2Vec模型细节及代码演示Word2Vec的三大创新:1.将常见的单词组合(或者说词组)当做一个单词来处理:2.对高频词进行抽样处理:3.负采样:5.2.3 应用工具训练Word2Vecgensim中的W.原创 2020-11-23 15:25:53 · 184 阅读 · 0 评论 -
文本的表示技术 | (1)词袋模型
5.1 词袋模型(Bag-of-Words,BOW)5.1.1 基于频次的词袋模型假设数据集为两个经过预处理且分好词的句子:1.你/站在/桥上/看/风景/看/风景/的/人/在/楼上/看/你2.明月/装饰/了/你/的/窗子/你/装饰/了/别人/的/梦可得到对应长度为15的词典如下:[里面包含15个词]如此可以将两个句子向量化如下:1.[2,1,1,3,2,1,1,1,1,0,0,0,0,0,0]2.[2,0,0,0,0,2,0,0,0,1,2,2,1,1,1]基于频次的原创 2020-11-23 15:14:53 · 736 阅读 · 0 评论