数据集ex8data1.mat中给出了m=307个样本,其表示的是服务器电脑特征值,第1个特征值表示的是吞吐量,第2个特征值表示的是延迟。需要做的是从这些无标签数据中,找出异常数据。
其数据的可视化为:
1、高斯分布
高斯分布函数为:
其中mu表示的是高斯分布的平均值即期望,sigma表示的是高斯分布的标准差。
2、高斯分布的参数估计
使用最大似然法进行参数估计有:
补充完整[mu sigma2] = estimateGaussian(X)函数:
function [mu sigma2] = estimateGaussian(X)
[m, n] = size(X);
mu = zeros(n, 1);
sigma2 = zeros(n, 1);
mu = mean(X,1);
sigm