延伸阅读:
LSF-SCNN,即基于词汇语义特征的跳跃卷积模型 (Lexical Semantic Feature based Skip Convolution neural network ),基于卷积神经网络模型引入三种优化策略:词汇语义特征 (Lexical Semantic Feature, LSF)、跳跃卷积 (Skip Convolution, SC)和K-Max均值采样 (K-Max Average Pooling, KMA) ,分别在词汇粒度、短语粒度、句子粒度上抽取更加丰富的语义特征,从而更好的在向量空间构建短文本语义表达模型,并广泛的适用于问答系统 (question answering)、释义识别 (paraphrase identification) 和文本蕴含 (textual entailment)等计算成对儿出现的短文本的相似度的任务中。
doc2vec来做相似性分析,其他办法有:
第一种方法,使用docsim;第二种办法,使用doc2vec;第三种方式:使用LSH。
3. NLP+Skip-Thoughts-Vectors︱基于TensorFlow的带语义特征的句向量编码方式
我们描述了一种通用、分布式句子编码器的无监督学习方法。使用从书籍中提取的连续文本,我们训练了一个编码器-解码器模型,试图重建编码段落周围的句子。语义和语法属性一致的句子因此被映射到相似的向量表示。我们接着引入一个简单的词汇扩展方法来编码不再训练预料内的单词,令词汇量扩展到一百万词。同时建立word2vec到skip-thoughts向量之间的映射关系。
4. 词向量的干涉,提交效率
好处:去掉向量中的均值,忽略了部分信息。但是不同方式训练出来的词向量加强词向量中包含的语义信息。
好处:intrinsic 衡量的方式上:(similarity, analogy, concept categorization)得到了一致性地提高。
5 CNN用于nlp时候,一般用与情感分类
6 语言建模任务,则需要基于上下文的灵活建模。
7 其他待补充模型
主题建模-LDA浅析。优势,比较起词汇频率的统计,LDA通过概率考虑了语义的影响。
8 reference