聚类不同于分类,分类是人已经知道如何分类 有了分类 机器对人类的操作学习之后自动分类 如:垃圾邮件;而聚类 算法根据数据的相似性自己去判断 事先没有分类
聚类算法包括:
1.K-means(无监督学习)
特点:运算快、简单、好理解 但是只能应用于连续型数据 并且在分类前指定要选哪几类,非球形簇有局限
算法理解:
先指定要分几个组 在数据集中随机选几个数据点作为质心 计算其余点与质心的距离 哪个近跟哪个 然后再根据算法选出新的质心(这个点可以为数据中不存在的点) 如果新的质心与原来的距离小于某一阈值 则可以认为达到预期 如果有差距 则需要重新迭代
问题:
1.K值如何确定-根据经验或者多尝试几个(比较sse值)
2.初始质心随机选 数学证明质心选择一定会收敛 每个点归属质心距离(欧几里得距离/余弦相似度)
3.关于离群值 太远离整体的需要去掉 但同样有研究价值在