机器学习一:准备工作

选择算法需考虑数据类型、业务场景及算法性能。监督学习包括KNN、SVM等,适用于分类和回归;无监督学习如K-Means用于聚类。过拟合因模型复杂度过高或数据量不足导致,解决方法包括正则化、Dropout和增加数据量。
摘要由CSDN通过智能技术生成

一、如何选择一个合适的算法
1.确定算法范围:
数据的种类:数值?文本?
有无目标队列数据:监督?非监督?
业务场景:分类?聚类?回归?
2.多算法尝试:
不同的数据适用算法不同,最好的方法是多尝试几种算法,选择效果较好的一种。
3.多视角分析:
在实际应用中,除了要考虑算法的效果以外,还要考虑算法的鲁棒性、复杂度、耗费的资源量、成本等。
二、常见算法分类
1.监督/无监督:根据用于算法的训练样本中是否存在目标值进行划分,也即是否依靠打标数据。
监督需要打标数据很耗费资源,但无监督难解决分类和回归问题
2.半监督:针对上述缺陷提出,采用折中,打标一部分数据。
3.强化学习:不断交互获得反馈,如无人驾驶和阿尔法狗
监督学习:
分类:KNN,NBM,RF,决策树,GBDT和SVM等
回归:逻辑归回、线性回归
无监督学习:
分类:K-Means、DBSCAN等
三、过拟合问题
是什么?
过拟合是模型学习能力太强,把部分不一般的特性学到了当成整个样本空间的特性,对某一特征的效果好,但其他特征就差。
为什么?
数据太少,模型太复杂
怎么解决?
L1/L2正则化
Dropout
Early stop
增大数据量:在机器学习中,数据质量重于模型质量

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值