本篇为机器学习与数据科学背后的线性代数知识系列的第二篇,本篇主要介绍自然语言处理(NLP)中的线性代数与计算机视觉(CV)中的线性代数。涵盖主成分分析(PCA)与奇异值分解(SVD)背后的线性代数知识。相信这也是各位数据科学爱好者常用的各项技术,希望可以帮大家理清思路和对这些算法有更进一步的认识。
系列目录:
为什么学习线性代数机器学习中的线性代数损失函数正则化协方差矩阵支持向量机分类器降维中的线性代数主成分分析(PCA)奇异值分解(SVD)自然语言处理中的线性代数词嵌入(Word Embeddings)潜在语义分析计算机视觉中的线性代数图像用张量表示卷积与图像处理自然语言处理(NLP)
由于过去18个月自然语言处理(NLP)取得的各项重大突破,NLP是目前数据科学领域最热门的领域。
让我们看一下NLP中线性代数的几个有趣的应用。这应该有助于引起你的思考!
7. 图嵌入
机器学习算法不适用于原始文本数据,因此我们需要将文本转换为一些数字和统计特征来创建模型输入。文本数据有着很多工程性特征可以利用,例如
文本的元属性,如:“字数”,“特殊字符数”等。使用“词性标签”和“语法关系”(如专有名词的数量)等文本数据NLP属性词向量符号或词嵌入(Word Embeddings)词嵌入(Word Embeddings)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。这些表示是通过在大量文本上训练不同的神经网络而获得的,这些文本被称为语料库。它们还有助于分析单词之间的句法相似性: