深入浅出K-Means算法

最新推荐文章于 2023-05-04 21:31:21 发布

皮熊

最新推荐文章于 2023-05-04 21:31:21 发布

阅读量701

点赞数

分类专栏：语音识别与语音合成

本文链接：https://blog.csdn.net/ppp2006/article/details/22290919

版权

本文介绍了K-Means算法在声学模型训练中的应用，分析了因训练数据不足导致的失败原因，并探讨了解决方案。同时，文章讨论了K-Means算法的基本原理，包括求点群中心的方法、K-Means++改进算法以及实际应用案例，展示了K-Means在多维数据聚类中的价值。

摘要由CSDN通过智能技术生成

这两天cmusphinux的声学模型训练，一直未成功。今天终于搞清楚了失败的的原因，是Too few observations for kmeans.

对应源代码vim /home/ppeix/Downloads/sphinxtrain-1.0.7/src/programs/kmeans_init/main.c中cluster函数返回失败。
如何解决这个问题，直观理解应当是获取足够多的训练数据。加强训练吧！！不知道路子走得对还是不对。

事实证明，声学模型训练上面出现的那个问题原因是.cont设置成了.semi导致的。修改后可以正常生成声学模型文件。
但识别率很低，可能需要加大训练数据吧。

语音识别的特征向量有哪些呢？

定位问题过程中遇到了k-means和vq的概念，需要补充理论知识了。

特别的，对于语音识别领域：

语音信号的聚类,就是寻找语音信号向量空间各云团的重心,即从大量的训练向量中将相互差异较小的那些点归为一类.假若我们所选的各个初始码字都对应在各个不同的云团中,那么迭代的次数将会大大减少,得到的码字也将有效地代表了该语音的特征。

深入浅出K-Means算法转载自：http://www.csdn.net/article/2012-07-03/2807073-k-means

摘要：在数据挖掘中，K-Means算法是一种 cluster analysis 的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

在数据挖掘中，K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

问题

K-Means算法主要解决的问题如下图所示。我们可以看到，在图的左边有一些点，我们用肉眼可以看出来有四个点群，但是我们怎么通过计算机程序找出这几个点群来呢？于是就出现了我们的K-Means算法（Wikipedia链接）

最低0.47元/天解锁文章

皮熊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入浅出K-Means算法

这两天cmusphinux的声学模型训练，一直未成功。今天终于搞清楚了失败的的原因，是Too few observations for kmeans.对应源代码vim /home/ppeix/Downloads/sphinxtrain-1.0.7/src/programs/kmeans_init/main.c中cluster函数返回失败。如何解决这个问题，直观理解应当是获取足够多的训练数据
复制链接

扫一扫

专栏目录