作者:禅与计算机程序设计艺术
1.简介
核密度估计(Kernel density estimation,KDE)是一种非参数统计技术,它利用密度估计方法对一个随机变量进行概率分布的建模并估计其未知参数。
核函数(kernel function)是一个非负函数,它能够将数据点集映射到一个实向量空间中,使得所有点都在同一坐标系下进行可视化显示。当采用核函数作为核密度估计(KDE)中的核函数时,就可以使用广义误差函数(generalized error function)来估计目标随机变量的分布。
KDE在非线性数据变换、分类、聚类、异常检测等领域都有着广泛应用。KDE通过引入核函数以及附加假设(即假设数据服从某个概率分布),把原始的数据集划分成多个子集,每个子集代表一个“邻域”,根据输入数据的密度分布进行推断,最终得到数据的概率密度分布。
2.基本概念与术语
2.1 样本集
数据集:由输入变量及其对应输出变量构成的有限数量的记录组成的集合。
样本:指数据集中某个元素。
样本点:指某一行或某一列。
特征:指描述输入变量(如年龄、体重、身高)的一维