当我们拿到数据进行建模时，如何选择更合适的算法？

最新推荐文章于 2022-03-04 18:31:00 发布

Datawhale

最新推荐文章于 2022-03-04 18:31:00 发布

阅读量7.7k

点赞数 9

分类专栏：每日一问

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Datawhale/article/details/88316122

版权

在数据建模时，选择合适的算法至关重要。针对机器学习，首先要确定是分类还是回归问题，然后分析数据类型和分布，通常会尝试树模型或其他分类算法。深度学习中，图像任务常选CNN，序列任务选RNN，生成任务选VAE或GAN。K-means是一种常用聚类算法，但需考虑k值确定、初始质心选择、距离度量等问题，其对初始条件和非凸形簇敏感。分类与预测的区别在于数据类型和目标，但两者有时可以相互转换，如分类算法可预测连续值概率。

摘要由CSDN通过智能技术生成

【每日一问】当我们拿到数据进行建模时，如何选择更合适的算法？
Datawhale优秀回答者：mashagua，金小楗
目标导向

机器学习
1.先看是分类问题还是回归问题（分类就先从常用的分类模型里选择）
2.其次，看数据特征的数据类型，然后做一些初步的数据统计，比如是否数据均衡，大致的数据分布是怎样的（不同类别的分布）
3.然后判断用哪个比较合适一些，是树模型还是其他的分类模型。
4.最后查看kaggle比赛有没有相似案例，别人做的方法有没有值得自己学习的地方
深度学习
对于深度学习算法选择也是看任务目标选择合适的模型，图像类首选cnn及各种cnn的变种，时间顺序相关的选rnn ，生成类的选vae或gan，有明确规则的选rl。

【每日一问】什么是K-means算法？
Datawhale优秀回答者：金小楗、强
通俗解释
聚类算法有很多种，K-Means 是聚类算法中的最常用的一种，算法最大的特点是简单，好理解，运算速度快，但是只能应用于连续型的数据，并且一定要在聚类前需要手工指定要分成几类。

K-Means 聚类算法的大致意思就是“物以类聚，人以群分”。

首先输入 k 的值，即我们指定希望通过聚类得到 k 个分组；
从数据集中随机选取 k 个数据点作为初始大佬（质心）；
对集合中每一个小弟，计算与每一个大佬的距离，离哪个大佬距离近，就跟定哪个大佬。

最低0.47元/天解锁文章

关注

9
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。