数学之美:矩阵运算和文本处理中的两个分类问题 奇异值分解

数学一直以来由于脱离生活,让人觉得没有什么作用。我在高中的时候也是这样想的,直到大学发现几乎所有科目的背后都有着数学理论知识的支持。这迫使我想要将自己所学的数学知识同实际结合起来,帮助自己对数学有个更为全面的理解。这也是我看这本书的原因。

前面所提的新闻分类问题,其实走的是将文本变成字词,将字词变成数字,从而方便计算机计算的流程。理论上说这种方法很好,但存在的实际问题就是计算量过于庞大。当新闻数量很大,同时词表也很庞大的时候,有没有快速的办法将所有新闻的相关性一次性计算出来?这个简单的方法就是矩阵中的奇异值分解(Singular Value Decomposition,SVD)

上面的物理意义解释,感觉有点不理解。在前文中100 0000是文章数,50 0000是词表的数。但在物理意义解释完全相反,且对于X,Y,B物理意义的来源也未作解释,有点牵强附会。如果按照作者的意思,我更倾向于把X理解为文章和主题关系,每一行代表一篇文章与各个主题的相关系,而Y理解为词表与词的语义类关系,每一列代表一个词与各个词的语义类关系。这样,如果忽略B取一篇文章有1*100  乘 100 *500000 等于 1*500000,从含义上可以理解为计算一篇文章与50 0000个词之间关系,还原到了最初的矩阵。由于X和Y没有直接关系,因此在相乘时要加上关系矩阵B。

因此,只需要对矩阵进行一次奇异值分解,就能得到近义词分类和新闻分类。同时还得到了每个主题和每个词的语义类之间的相关性。虽然奇异值分解能够很快得到结果,而不需要一次次迭代。但是这种方法得到的结果略显粗糙。因此它适合于处理大规模粗分类。在实际中可以先使用奇异值分解得到大致结果,然后再使用余弦相似性进行几次迭代得到精确结果。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值