机器学习算法对数据的要求以及使用的情况

最新推荐文章于 2024-06-25 18:00:13 发布

UESTC_C2_403

最新推荐文章于 2024-06-25 18:00:13 发布

阅读量6.9k

点赞数 4

分类专栏：机器学习--ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UESTC_C2_403/article/details/72848650

版权

本文探讨了不同数据量下机器学习算法的选择，包括数据量小于10万时采用随机梯度下降，小数据量的聚类算法如kmeans、meanshift，有标签数据的线性SVM、朴素贝叶斯，以及回归和预测问题中的各种方法。强调了数据量对算法效果的影响，指出样本数量至少需大于50。

摘要由CSDN通过智能技术生成

1.数据量大于10万采用随机梯度下降，效果不错，大大的节约时间成本

2.数据量小于1万的可以采用kmeans聚类算法，无效果采用特殊聚类或者GMM模型。大于1万的采用minibatch kmeans算法。使用kmeans聚类的前提是聚类类别数量知道。

3.聚类类别数量未知的情况下，数据量小于1万时，采用meanshift或者VBGMM模型，大于1万时，就咩有什么有效的算法

4.聚类算法是建立在没有标记样本的数据，属于无监督模型

最低0.47元/天解锁文章

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法对数据的要求以及使用的情况

1.数据量大于10万采用随机梯度下降，效果不错，大大的节约时间成本2.数据量小于1万的可以采用kmeans聚类算法，无效果采用特殊聚类或者GMM模型。大于1万的采用minibatch kmeans算法。使用kmeans聚类的前提是聚类类别数量知道。3.聚类类别数量未知的情况下，数据量小于1万时，采用meanshift或者VBGMM模型，大于1万时，就咩有什么有效的算法4.聚
复制链接

扫一扫

专栏目录

博客等级

码龄8年

139
原创

567
点赞

732
收藏

461
粉丝

关注

私信

热门文章

分类专栏

最新评论

矩阵求逆引理(matrix inversion lemma)
weixin_47028382: 舒尔补，两行证出。
参数(parameters)和超参数(hyperparameters)
天晴虹至: 学习速率，迭代次数，层数，每层神经元的个数这四个超参数在对抗生成网络GAN有吗
tensorflow让彩色图变成灰度图
想要成为一个合格的码农: 如果是未解压的压缩包该怎么处理呢
峭度度量非高斯分布的理论知识
--有没有盒纸: 求救！请问kurt(y)有峭度之外的其他学名吗？在其他帖子上搜到的峭度公式跟您博客中的公式不同；还有公式中的y是代表什么呢？期望是怎么求的？
tf.nn.embedding_lookup函数的用法
weixin_49959093: 那么在真实的环境中，tf.nn.embedding_lookup（prams,ids）,id是真实的itemid,例如44333567，而不是，0，1，2，3这种，又如何使用呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。