1 概述
1. 定义
将不定长的句子用定长的向量表示,为NLP下游任务提供服务。
1.2 句向量应用
- 语义搜索,通过句向量相似性,检索语料库中与query最匹配的文本
- 文本聚类,文本转为定长向量,通过聚类模型可无监督聚集相似文本
- 文本分类,表示成句向量,直接用简单分类器即训练文本分类器
1.3 句向量模型概览
![dfa1074bfb30d1f39a6a9463311013fc.png](https://i-blog.csdnimg.cn/blog_migrate/7479af4193e9257cb8f46de93ba91a49.png)
2. 基于word-level的句向量
2.1 常见词向量算法
- word2vec
- 基于分布假设理论,计算得到具有句义相关的词向量
- Glove
- 结合了全局统计特征和局部上下文特征,所得词向量
- Fasttext
- 结合了char,ngram和subword的feature的有监督模型
2.2 常见词向量加权方式
- 平均向量
- IDF加权平均
- 因简单平均相加,忽略每个词的重要程度不一致性,采用IDF加权,重点关注语料库中不常出现的词
- SIF加权平均
- 以smooth inverse frequency(SIF)为权重,对