系列目录:
-
为什么学习线性代数
-
机器学习中的线性代数
-
损失函数
-
正则化
-
协方差矩阵
-
支持向量机分类器
-
-
降维中的线性代数
-
主成分分析(PCA)
-
奇异值分解(SVD)
-
-
自然语言处理中的线性代数
-
词嵌入(Word Embeddings)
-
潜在语义分析
-
-
计算机视觉中的线性代数
-
图像用张量表示
-
卷积与图像处理
-
自然语言处理(NLP)
由于过去18个月自然语言处理(NLP)取得的各项重大突破,NLP是目前数据科学领域最热门的领域。
让我们看一下NLP中线性代数的几个有趣的应用。这应该有助于引起你的思考!
7. 图嵌入
机器学习算法不适用于原始文本数据,因此我们需要将文本转换为一些数字和统计特征来创建模型输入。文本数据有着很多工程性特征可以利用,例如
-
文本的元属性,如:“字数”,“特殊字符数”等。
-
使用“词性标签”和“语法关系”(如专有名词的数量)等文本数据NLP属性
-
词向量符号或词嵌入(Word Embeddings)
词嵌入(Word Embeddings)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。这些表示是通过在大量文本上训练不同的神经网络而获得的,这些文本被称为语料库。它们还有助于分