机器学习导论(三)

机器学习分类

在这里插入图片描述

监督学习

监督(supervised)是指训练数据集中的每个样本均有一个已知的输出项(类标label)
输出变量为连续变量的预测问题称为回归问题,回归算法有
简单线性回归,多元线性回归,Lasson回归,Ridge回归,ElastictNet
输出变量为有限个离散变量的预测问题称为分类问题,分类算法有
决策树,KNN,SVM,Perception&NeuNetwork,Bayes,LogisticRegression

无监督学习

人们给机器一大堆没有分类标记的数据,让机器可以对数据分类、检测异常等
1、聚类(KMeans)
2、降维(PCA,LDA)
在这里插入图片描述

半监督学习

一部分样本有标签,一部分样本无标签,处理方法:聚类假设
聚类假设:将有标记的样本和无标记的样本混合在一起,通过特征之间的相似性将样本分为若干组,使得组内的相似性较大,组间的相异性较大,将样本点都进行分组,组内根据少数服从多数的原则对没有标记的样本添加标记,至此,所有未标记的数据都可以分配标记。
主动学习
纯半监督学习/直推学习

强化学习

是机器学习的一个重要分支,主要用来解决连续决策问题
在这里插入图片描述

迁移学习

小数据问题
个性化问题

机器学习三要素

模型+策略+算法

模型

模型通常分为决策函数(非概率模型)或条件概率分布(概率模型)

策略

评估模型的好坏,使用损失函数(误差函数、目标函数)度量

算法

机器学习的算法就是求解最优化问题的算法

如何设计机器学习系统

在这里插入图片描述
首先明确:
1、该问题是否为机器学习问题
2、该问题是机器学习问题的哪方面问题
当拿到数据后从下面两个角度思考:
1、数据角度:根据具备的数据看能够做监督学习or无监督学习or半监督学习
2、业务角度:根据业务部门指定的业务方向,整理数据,建模
特征工程:
1、对特征处理
2、对数据处理
数据+选择的算法==》模型
通过测试集测试模型,给定最终模型
有新数据,通过模型给出测试结果

模型的泛化性能

模型不但在训练集上表现效果很好,对于新数据的适应能力也很好
泛化能力的表现:过拟合和欠拟合在这里插入图片描述

欠拟合

模型在训练集和测试集的效果都很差
出现原因:模型过于简单
出现场景:模型训练初期
解决方法:
1、增加模型的多项式的项
2、增加模型多项式的次数
3、减少正则罚项

过拟合

模型在训练集效果很好,但是测试集的效果很差
出现原因:模型过于复杂,数据不纯、训练数据量太少
出现场景:模型训练中后期
解决方法:
1、针对过于复杂的特性,增加正则罚项
2、重新清洗数据
3、增加训练数据量
4、对样本抽样或特征抽样
5、dropout–随即丢弃一些点(深度学习)

奥卡姆剃刀原则

如果具有相同泛化误差的模型,选择较为简单的模型(防止过拟合)

正则化

正则项,目的是为了降低模型复杂度。
L1正则项: +lambda*|w|
L2正则项: +lambda*|w|**2

交叉验证

1、简单交叉验证
2、k则交叉验证,将数据集平均随机切分为k等分,将其中一份数据作为测试集,其余作为训练集,训练k个魔心,得到平均准确率。
3、留一验证,特殊的k则交叉验证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值