SVD分解在文本分类中的应用

最新推荐文章于 2022-10-25 11:32:14 发布

VIP文章 Vincent乐

最新推荐文章于 2022-10-25 11:32:14 发布

阅读量1.3w

点赞数

分类专栏：图像处理文章标签：图像处理机器学习人工智能算法 Opencv

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chlele0105/article/details/12983833

版权

在自然语言处理中，最常见的两个问题分别是，将文本按主题归类和将词汇按意思归类。这两个问题都可以通过矩阵运算来圆满地，一次次能够解决。首先来看一看余弦定理和新闻分类这个问题

新闻分类其实就是一个聚类问题，关键是计算两篇新闻的相似程度。问了完成这个任务，我们可以将新闻表示成代表它们内容的实词序列，即向量，然后求两个向量的夹角。夹角越小，表示两篇新闻越相关；当它们垂直正交时，表示两篇新闻无关。从理论上来讲，这种算法非常简单，，也易于实现。但问题是，当我们需要对大量的新闻进行分类时，我们需要两两比较，这需要很多次迭代，因此非常耗时。尤其当新闻数量非常大，同时词汇数量也很大时，这个问题可能会趋于无解。那么我们有没有一种方法，能够一次性地把所有新闻的相关性计算出来呢？答案是肯定的，这就是我们在“线性代数”中学过的SVD(奇异值分解)。

现在让我们来看看奇异值分解是怎么回事。首先，我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。这个矩阵中，每一行对应一篇文章，每一列对应一个词。

在上面的图中，M=1,000,000，N=500,000。第 i 行，第 j 列的元素，是字典中第 j 个词在第 i 篇文章中出现的加权词频（比如，TF/IDF)。读者可能已经注意到了，这个矩阵非常大，有一百万乘以五十万，即五千亿个元素。

奇异值分解就是把上面这样一个大矩阵，分解成三个小矩阵相乘，如下图所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X，一个一百乘以一百的矩阵B，和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来也不过1.5亿，仅仅是原来的三千分之一。相应的存储量和计算量都会小三个数量级以上。

最低0.47元/天解锁文章

关注

0
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
SVD分解在文本分类中的应用

SVD分解在文本处理中的应用在自然语言处理中，最常见的两个问题分别是，将文本按主题归类和将词汇按意思归类。这两个问题都可以通过矩阵运算来圆满地，一次次能够解决。首先来看一看余弦定理和新闻分类这个问题新闻分类其实就是一个聚类问题，关键是计算两篇新闻的相似程度。问了完成这个任务，我们可以将新闻表示成代表它们内容的实词序列，即向量，然后求两个向量的夹角。夹角越小，表示两篇新闻越相关；当它们垂直正
复制链接

扫一扫

专栏目录

Vincent乐 CSDN认证博客专家 CSDN认证企业博客

码龄11年

155: 原创

6万+: 周排名

66万+: 总排名

242万+: 访问

: 等级

2万+: 积分

807: 粉丝

305: 获赞

150: 评论

937: 收藏

私信

关注

热门文章

分类专栏

machine learning algorithm 7篇
C++开发 35篇
JAVA 8篇
Multi Threading 17篇
STL 13篇
Python 20篇
Algorithm 10篇
杂谈 8篇
机器学习 42篇
Linux 3篇
图像处理 48篇
OpenCV 11篇
Deep Learning 17篇
数学库 1篇
ubuntu 12篇
工作面试 13篇
LeetCode 8篇

最新评论

B树、B+树、AVL树、红黑树
程序辕日记: 难
使用cvLoadImage导致内存泄漏的解决方法
未来头发多多哦: 没用的内存还是会涨这个releaseimage 释放不完全
机器学习/数据挖掘, Python 书籍推荐
hnmwykka: 左手Python右手R，多算法对比，经典数据挖掘机器学习实战下载地址：https://download.csdn.net/download/qwmwysr/85449927
常用核函数-Kernel Function
qq_21933879: 一没有reference，而原来的reference（http://crsouza.com/2010/03/17/kernel-functions-for-machine-learning-applications/）有误，你也直接抄过来，这就是学术不端！
Linux的.a、.so和.o文件
香蕉有毒: 非常棒，很齐全！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。