数学之美：矩阵运算和文本处理中的两个分类问题奇异值分解

最新推荐文章于 2022-10-25 11:32:14 发布

青盏

最新推荐文章于 2022-10-25 11:32:14 发布

阅读量939

点赞数 2

分类专栏： beautiful math

本文链接：https://blog.csdn.net/qq_16234613/article/details/82698338

版权

beautiful math 专栏收录该内容

23 篇文章 2 订阅

订阅专栏

数学一直以来由于脱离生活，让人觉得没有什么作用。我在高中的时候也是这样想的，直到大学发现几乎所有科目的背后都有着数学理论知识的支持。这迫使我想要将自己所学的数学知识同实际结合起来，帮助自己对数学有个更为全面的理解。这也是我看这本书的原因。

前面所提的新闻分类问题，其实走的是将文本变成字词，将字词变成数字，从而方便计算机计算的流程。理论上说这种方法很好，但存在的实际问题就是计算量过于庞大。当新闻数量很大，同时词表也很庞大的时候，有没有快速的办法将所有新闻的相关性一次性计算出来？这个简单的方法就是矩阵中的奇异值分解（Singular Value Decomposition，SVD）

上面的物理意义解释，感觉有点不理解。在前文中100 0000是文章数，50 0000是词表的数。但在物理意义解释完全相反，且对于X，Y，B物理意义的来源也未作解释，有点牵强附会。如果按照作者的意思，我更倾向于把X理解为文章和主题关系，每一行代表一篇文章与各个主题的相关系，而Y理解为词表与词的语义类关系，每一列代表一个词与各个词的语义类关系。这样，如果忽略B取一篇文章有1*100 乘 100 *500000 等于 1*500000，从含义上可以理解为计算一篇文章与50 0000个词之间关系，还原到了最初的矩阵。由于X和Y没有直接关系，因此在相乘时要加上关系矩阵B。

因此，只需要对矩阵进行一次奇异值分解，就能得到近义词分类和新闻分类。同时还得到了每个主题和每个词的语义类之间的相关性。虽然奇异值分解能够很快得到结果，而不需要一次次迭代。但是这种方法得到的结果略显粗糙。因此它适合于处理大规模粗分类。在实际中可以先使用奇异值分解得到大致结果，然后再使用余弦相似性进行几次迭代得到精确结果。