暑期项目实训 7.25 股票相似性分析

最新推荐文章于 2024-08-03 18:20:15 发布

JimMoriarty

最新推荐文章于 2024-08-03 18:20:15 发布

阅读量765

点赞数

分类专栏：暑期项目实训文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JimMoriarty/article/details/119089135

版权

暑期项目实训专栏收录该内容

15 篇文章 1 订阅

订阅专栏

介绍一下股票相似性分析的处理

我们对股票进行分类的主要依据是股票收盘价曲线的相似性。

首先要注意一点就是计算距离时股票数据都要进行标准化处理，因为我们要比较的是趋势，而不是价格本身，否则有些股票股价很高，而有些又很低，它们可能有相似的形状，却不被分为同一类。

我主要采用了K-Means聚类算法作为基本的框架。

为了贴合预测股票曲线的需求，更改了距离函数。不再简单的用欧几里得距离去求两条曲线的距离。

首先考虑曲线实际就是点的集合，考虑计算两个集合之间的距离，了解到了Hausdorff Distance。

Hausdorff Distance是一种衡量两个集合之间距离的算法，公式如下：

公式还是挺好理解的，最短距离中的最大值。

比如，A集合到B集合的最短距离就是先求出A中每个点到B中每个点的距离的最小值，然后在所有最小值中求最大值，作为A集合到B集合的最短距离。

显然，该距离是有方向的，A到B的豪斯多夫距离不等于B到A的豪斯多夫距离，解决办法是取较大值。蓝色的半径就是两个三角形的豪斯多夫距离。

下图为K-Means用豪斯多夫距离实现的某一类的结果：

并不是很理想，可能也和训练时间并不长有关。

我们后来又了解到了专门计算两条曲线之间距离的Fréchet distance ，公式如下：

挺难懂的看公式，而且后面还有一大堆数学计算，不人性化。但是我从网上找到了一句话，和一个非常形象的比喻，靠这个就可以实现这个距离算法了。

直观的理解，Fréchet distance就是狗绳距离：主人走路径A，狗走路径B，各自走完这两条路径过程中所需要的最短狗绳长度。

路径相似性描述：Fréchet distance - 知乎 (zhihu.com)

数学公式看起来很繁琐，上图中一句话就非常好，最短狗绳长度，突然就典型了，典型的序列型动态规划。定义F[i,j] 为序列A到i，B到j的最短狗绳距离，转移方程为：

F[i,j] = max(min(F[i-1, j-1], F[i-1, j], F[i, j-1]), dis[A[i], B[j]])

初始状态F[0,0] = dis[A[0], B[0]]

处理好i=0和j=0的时候的边界就行。

python运行是真慢啊

运行结果：

显然比上面豪斯多夫距离表现的好。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。