聚类
非监督学习,输入的数据没有标签,通过学习找出数据内在的性质和规律。
两个基本问题来衡量聚类效果的好坏:
性能度量
最佳的效果是簇内相似度高,簇间相似度低(类似高内聚低耦合)
簇间度量(越大越好)
- Jrccard系数
- FM系数
- Rand系数
簇内度量
- DB系数(越小越好)
- Dumn系数(越大越好)
距离计算
有序属性
- 闵可夫斯基距离
- 曼哈顿距离
是闵可夫斯基距离参数=1 的情况
- 欧氏距离
是闵可夫斯基距离参数=2 的情况
非监督学习,输入的数据没有标签,通过学习找出数据内在的性质和规律。
两个基本问题来衡量聚类效果的好坏:
最佳的效果是簇内相似度高,簇间相似度低(类似高内聚低耦合)
簇间度量(越大越好)
簇内度量