高斯混合模型的C++实现
原理
GMM将数据的分布通过多个高斯模型进行拟合。GMM是一种聚类算法,每个component就是一个聚类中心。高斯混合模型可以得到每个数据属于每个模型的概率,是一种软聚类算法。这是来自《统计学习方法》中的定义:
过程
高斯混合模型使用EM算法估计模型参数。
1. 初始化模型的个数和每个高斯模型的参数,设定迭代结束条件(迭代次数,误差阈值)
2. 迭代:对于每一个数据,计算在每一个高斯模型中的概率
3. 根据计算得到的概率更新每个模型的参数(均值,方差)
4. 当超过迭代次数或者更新小于阈值时结束迭代。
代码实现
代码参考自网上大神,具体出处忘记了,加以修改和添加注释,如有侵权请联系~
头文件
#ifndef _GMM_H
#define _GMM_H
#include <vector>
#include <cmath>
using namespace std;
class GMM
{
public:
void Init(const vector<double> &inputData, const int clustNum = 5, double eps = 0.01, double max_steps = 20);
void train();
int predicate(double x);//预测输入的数据属于哪一类
void print();
protected:
int clusterNum; // 限制
vector<double> means;
vector<double> means_bkp; // 上一次的迭代数据
vector<double> sigmas;
vector<