前言:
{
之前《机器学习》[1]第8章还有几个习题没搞明白(8.1和8.2我甚至连题目的意思都还没看懂,可见我的水平是有多捉急),这次就先进行第9章的内容,毕竟时间宝贵(也许有一天突然开窍了也说不定)。
}
正文:
{
聚类指标和距离度量:
{
聚类是一种无监督学习。度量聚类效果的指标有两类:外部指标和内部指标。
外部指标的使用需要配合一个参考模型(或者说标签,不过这样还算是无监督学习吗?)。书上介绍了三种外部指标:Jaccard系数,FM指数和Rand指数。
内部指标的使用无需参考模型(无需标签)。书上给出了两种内部指标:DB指数和Dunn指数。
具体的指标公式我就跳过了,需要时我就去查资料,在这只记录名字。
部分指标的计算涉及距离度量。像物理距离一样,距离度量需要满足4个距离性质:非负性(距离不能为负),同一性(自己到自己的距离是0),对称性(a到b的距离=b到a的距离=a和b之间的距离),和直递性(a到c的距离<=a到b的距离+b到c的距离)。
最常用的距离度量是闵可夫斯基距离,见式(9.18)。
闵可夫斯基距离包括了欧式距离(p=2)和曼哈顿距离(p=1)。
闵可夫斯基距离的缺点就是样本的属性必须是有序属性。有序属性是能够比较距离的属性,例如升高体重等数值属性。与它相对应的是无序属性,例如名称等标签属性。
书中给出了无序属性的距离度量:VDM,见式(9.21)。
式(9.21)中代表属性u取a值的样本在样本簇i中的数量,代表属性u取a值的样本的总数。值得注意的是,VDM描述的是一种离散属性值之间的距离,它的参数是具体的属性值而不是样本。另外,有方法把标签特征转换为数值特征[2]中正文的第一部分。
结合闵可夫斯基距离和VDM,一种复合距离被形成了,见式(9.22)。
式(9.22)中样本的有序属性被排到第一到第个,后面的则是无序属性。
另外,还可以为每种属性设置权值。
有些度量被称为非度量距离,其在某种程度上代表样本的相似性,但不属于距离度量,例如孪生网络[3]的输出。
聚类过程:
{
之后作者介绍了三种聚类方式:原型聚类,密度聚类和层次聚类。
原型聚类:
{
原型聚类<