算法系列——向量空间模型计算模板选择

最新推荐文章于 2024-03-12 10:23:50 发布

做工程师的IT猫

最新推荐文章于 2024-03-12 10:23:50 发布

阅读量816

点赞数

分类专栏：文本语言处理算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013654622/article/details/48663165

版权

文本语言处理同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

起源一个实际应用问题：假设有5篇文章（有图片文章，有纯文字文章），另外有一批显示模板（有若干带图模板、和不带图模板），如何选择最佳的显示模板。

首先想到的是决策树，通过一些关键“决策点”（有无图，有1张图、有2张图，有n图，有什么尺寸比例的图）进行判断选择，那好，动手画图，当决策点不断增加时候，发现决策树越来越大，而且每添加一个决策点（影响因素）都会导致决策树变化，而且决策树更加庞大，果断放弃，因为类别太多，决策树方式不适合，不易于扩展。

决策树示意图

其次想到的向量空间模型，影响一组文章（5篇为例）选择显示模板有几个因素（有多少4:3的图片文章，有多少16:9的图片文章····），从中抽象出一组 “独立互斥”的维度（为什么需要独立互斥？脑补一下吧），以空间坐标表示（a1,b1,c1,d1....）。然后将显示模板也抽象成空间坐标（ma1,mb1,mc1,md1....），（ma2,mb2,mc2,md2....）,...，这样就将一个程序选择问题转换成一个数学求最优解的问题，计算一组文章空间向量与若干模板空间向量的相似度问题，如果以后需要扩展模板选择因素，需要只是增加一个维度，如果需要扩展模板，只需增加一个模板向量，解决拓展的问题。

空间向量示意图

上图是以二维空间作为示例（实际中是多维空间），从上图可以直观看出，与模板2 更为相似，数学最优解是 “模板2”。

至于向量计算方式，包括绝对距离、垂直距离、余弦值等等方式，至于使用哪种，可以通过实际数据去测试选择。

将问题转换成数学数字，可以引入权重，阀值，排序，在需求发生变化时，可灵活拓展。例如，通过阀值可以判定，可以本来将一个模板内的内容，拆分成2个模板（3篇+2篇）得到最优解。

当然向量空间不是万能，多维空间计算是噩梦，得控制维度的膨胀，另外不能出现相关性的维度（各个维度必须独立），否则准确度也会降低。

向量空间模型在分类的场合适用性比较广，计算也不复杂，计算的性能取决于维度的多少，在一些非实时性的计算中，可以尝试一下。

整理于2014/5

做工程师的IT猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法系列——向量空间模型计算模板选择

起源一个实际应用问题：假设有5篇文章（有图片文章，有纯文字文章），另外有一批显示模板（有若干带图模板、和不带图模板），如何选择最佳的显示模板。首先想到的是决策树，通过一些关键“决策点”（有无图，有1张图、有2张图，有n图，有什么尺寸比例的图）进行判断选择，那好，动手画图，当决策点不断增加时候，发现决策树越来越大，而且每添加一个决策点（影响因素）都会导致决策树变化，而且决策树
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。