《百面》-5.非监督学习

最新推荐文章于 2024-01-22 19:13:26 发布

东东就是我

最新推荐文章于 2024-01-22 19:13:26 发布

阅读量144

点赞数

分类专栏：百面机器学习（笔记）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33228039/article/details/103190880

版权

百面机器学习（笔记）专栏收录该内容

14 篇文章 1 订阅

订阅专栏

1.K均值聚类

问题1：简述K均值算法的具体步骤？

答：

（1）数据预处理，如归一化、离群点处理

（2）随机选取K个簇中心，记为u1，u2.。。。。uk

（3）定义代价函数： $J(c,\mu )=min min \sum |x-u|^{2}$

（4）令t=0,1,2.。。。为迭代步数。重复下面的过程指导J收敛

对于每个样本x，将其分配到最近的簇。

对于每一个类簇，重新计算该类簇的中心。

问题2：K均值算法的优缺点是什么？如何对其进行调优？

答：受初值和离群点的影响每次的结果不稳定、结果通常不是全局最优而是局部最优解、无法很好地解决数据簇分布差别比较大的情况，不太适用于离散分类。优点是，计算复杂度接近线性。

调优方法

（1）数据归一化和离群点处理

（2）合理选择K值；手肘法、Gap Statistic

（3）采用核函数

问题3：针对K均值算法的缺点，有哪些改进的模型？

答：K均值算法的主要缺点如下。

（1）需要人工预先确定K值，且该值和真实数据分布未必吻合

（2）K均值只能收敛到局部最优，效果受到初始值影响

（3）易受到噪点的影响

（4）样本点只能被划分到单一的类中

改进的模型：

（1）K-means++ 算法

（2）ISODATA算法

当属于某个类别的样本过少时，去除该类别。当属于某个样本的类别的样本过多、分散度较大时，把该类别分为两个子类别。

问题4：证明K均值算法的收敛性？

答：K均值聚类的迭代算法实际上是一种最大期望算法，简称EM算法。EM算法解决的是在概率模型中含有无法观测的隐含变量情况下的参数估计问题。

东东就是我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

东东就是我

博客等级

码龄9年

208
原创

219
点赞

560
收藏

206
粉丝

关注

私信

热门文章

分类专栏

最新评论

keras 版 maskrcnn h5 转onnx 转 bp
zhaoshaohua_001: 前辈，能不能帮忙改下啊，付您费用，顺便能加您个联系方式吗，可以的话发我邮箱，加您一下，
keras 版 maskrcnn h5 转onnx 转 bp
东东就是我: 我也不太记得了，好久之前的代码了。
keras 版 maskrcnn h5 转onnx 转 bp
zhaoshaohua_001: 博主，您好，您的原版keras模型转onnx，输出是1x topknum x 6的，也就是batch=1的，我试着改成batchsize=3，模型加载不起来，能否有偿请您改成多输入的啊，我邮箱zhaoshaohua.001@163.com,谢谢了
keras 版 maskrcnn h5 转onnx 转 bp
zhaoshaohua_001: 您好，请问您这个最后部署成功了吗，能否有偿请教一下您！
mask rcnn onnxruntime c++ 学习笔记
zhaoshaohua_001: 请问博主，按照您的代码转换出来的onnx模型，似乎只能是单张推理，如果想多张处理的话，在转换时要改哪里呢，能回复一下吗，谢谢了

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。