【1】非参数估计与参数估计不同:未对函数形式作出假设,直接从训练样本中估计出密度,从训练样本估计某一点的概率。
【2】最简单的非参数估计:直方图 理解:直方图如果达到细化,就是概率密度函数。
2.1
简单理解一下公式:在x点发生的概率=(收集器区域内样本数/总的样本数)/收集器的宽度
缺点:但是是离散的而且和收集器的起始位置有关(收集器的位置一变,落入区域的样本点个数就会发生变化)
【3】将直方图进行推广。如果样本点足够多,空间体积减小。密度估计会趋于准备值。
注意:V不是越小越好,小到一定程度可能很难包含有效的样本。但过大的话会使宽度过宽,计算不准确。(我们不是想将直方图抽象成一条线么)
【4】核函数密度估计之 parzen窗口
4.1定义核函数(数点器)。(parzen窗口)理解:是中心在原点的单位超立方体。作用:值域只有0、1,是用来计数数点使用的。
4.2定义区域。
4.3计数
除以h的目的是为了归一化吧。
4.4估计
4.5 注意:核函数密度估计的期望与数据集合规模无关