当我们拿到数据进行建模时,如何选择更合适的算法?

在数据建模时,选择合适的算法至关重要。针对机器学习,首先要确定是分类还是回归问题,然后分析数据类型和分布,通常会尝试树模型或其他分类算法。深度学习中,图像任务常选CNN,序列任务选RNN,生成任务选VAE或GAN。K-means是一种常用聚类算法,但需考虑k值确定、初始质心选择、距离度量等问题,其对初始条件和非凸形簇敏感。分类与预测的区别在于数据类型和目标,但两者有时可以相互转换,如分类算法可预测连续值概率。
摘要由CSDN通过智能技术生成

【每日一问】当我们拿到数据进行建模时,如何选择更合适的算法?
Datawhale优秀回答者:mashagua,金小楗
目标导向

  • 机器学习
    1.先看是分类问题还是回归问题(分类就先从常用的分类模型里选择)
    2.其次,看数据特征的数据类型,然后做一些初步的数据统计,比如是否数据均衡,大致的数据分布是怎样的(不同类别的分布)
    3.然后判断用哪个比较合适一些,是树模型还是其他的分类模型。
    4.最后查看kaggle比赛有没有相似案例,别人做的方法有没有值得自己学习的地方

  • 深度学习
    对于深度学习算法选择也是看任务目标选择合适的模型,图像类首选cnn及各种cnn的变种,时间顺序相关的选rnn ,生成类的选vae或gan,有明确规则的选rl。

【每日一问】什么是K-means算法?
Datawhale优秀回答者:金小楗、强
通俗解释
聚类算法有很多种,K-Means 是聚类算法中的最常用的一种,算法最大的特点是简单,好理解,运算速度快,但是只能应用于连续型的数据,并且一定要在聚类前需要手工指定要分成几类。

K-Means 聚类算法的大致意思就是“物以类聚,人以群分”。

首先输入 k 的值,即我们指定希望通过聚类得到 k 个分组;
从数据集中随机选取 k 个数据点作为初始大佬(质心);
对集合中每一个小弟,计算与每一个大佬的距离,离哪个大佬距离近,就跟定哪个大佬。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值