机器学习一：准备工作

君_King

已于 2023-07-28 15:31:42 修改

阅读量48

点赞数

文章标签：机器学习 python 算法

于 2023-02-02 15:34:00 首次发布

本文链接：https://blog.csdn.net/abandononeself/article/details/118444794

版权

选择算法需考虑数据类型、业务场景及算法性能。监督学习包括KNN、SVM等，适用于分类和回归；无监督学习如K-Means用于聚类。过拟合因模型复杂度过高或数据量不足导致，解决方法包括正则化、Dropout和增加数据量。

摘要由CSDN通过智能技术生成

一、如何选择一个合适的算法
1.确定算法范围：
数据的种类：数值？文本？
有无目标队列数据：监督？非监督？
业务场景：分类？聚类？回归？
2.多算法尝试：
不同的数据适用算法不同，最好的方法是多尝试几种算法，选择效果较好的一种。
3.多视角分析：
在实际应用中，除了要考虑算法的效果以外，还要考虑算法的鲁棒性、复杂度、耗费的资源量、成本等。
二、常见算法分类
1.监督/无监督：根据用于算法的训练样本中是否存在目标值进行划分，也即是否依靠打标数据。
监督需要打标数据很耗费资源，但无监督难解决分类和回归问题
2.半监督：针对上述缺陷提出，采用折中，打标一部分数据。
3.强化学习：不断交互获得反馈，如无人驾驶和阿尔法狗
监督学习：
分类：KNN，NBM，RF，决策树，GBDT和SVM等
回归：逻辑归回、线性回归
无监督学习：
分类：K-Means、DBSCAN等
三、过拟合问题
是什么？
过拟合是模型学习能力太强，把部分不一般的特性学到了当成整个样本空间的特性，对某一特征的效果好，但其他特征就差。
为什么？
数据太少，模型太复杂
怎么解决？
L1/L2正则化
Dropout
Early stop
增大数据量：在机器学习中，数据质量重于模型质量

君_King

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习一：准备工作

如何选择一个合适的算法1.确定算法范围：数据的种类：数值？文本？有无目标队列数据：监督？非监督？业务场景：分类？聚类？回归？2.多算法尝试：不同的数据适用算法不同，最好的方法是多尝试几种算法，选择效果较好的一种。3.多视角分析：在实际应用中，除了要考虑算法的效果以外，还要考虑算法的鲁棒性、复杂度、耗费的资源量、成本等。...
复制链接

扫一扫