【腾讯TMQ】机器学习之一：聚类实战

最新推荐文章于 2024-05-15 10:17:24 发布

腾讯移动品质中心TMQ

最新推荐文章于 2024-05-15 10:17:24 发布

阅读量924

点赞数

分类专栏：精准测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tmq1225/article/details/81240367

版权

本文介绍了机器学习中的聚类算法，特别是K-means算法，详细阐述了其定义、基本思想和实现步骤，并通过项目实战展示了在病毒样本分类中的应用，利用数据清洗、特征提取和聚类分析提高处理效率。

摘要由CSDN通过智能技术生成

导读

可预见的未来数据分析和机器学习将成为工作中必备技能，也许已经在某个项目中讨论怎么调参优化，就像过去讨论如何优雅的写python、如何避免C++内存泄露一样常见。

一、简单介绍聚类算法

1、聚类的定义

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。

2、聚类的基本思想

给定一个有N个对象的数据集，构造数据的k个簇，k≤n。满足下列条件：

每一个簇至少包含一个对象；
每一个对象属于且仅属于一个簇；
将满足上述条件的k个簇称作一个合理划分。

对于给定的类别数目k，首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进之后的划分方案都较前一次好。

3、相似度/距离计算方法总结

4、K-means算法

K-means算法也被称为k均值，k值的选择、距离度量及分类决策是三个基本要素。

假定输入样本为S=x1,x2,…,xm，则算法步骤为：

选择初始的k个类别中心μ1μ2…μk；
对于每个样本xi，将其标记为距离类别中心最近的类别；
将每个类别中心更新为隶属该类别的所有样本的均值；
重复最后两步，直到类别中心的变化小于某阈值。

中止条件：

迭

最低0.47元/天解锁文章

腾讯移动品质中心TMQ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。