机器学习(一):机器学习入门常识

机器学习常常划分为三个方面:

  • 监督学习:(有标签的学习)包括分类,回归问题
  • 无监督学习:(无标签的学习)聚类问题
  • 强化学习:(有延迟的反馈)根据当前的处境选取最优解,比如下象棋,下完这步棋,在这步棋的基础上,争取下的最好,整部棋下的好坏,跟前几步都有关系。

分类问题:因为有了标签值,根据算法,将样本归于哪一类。(逻辑回归,决策树,随机森林,svm)

回归问题:是一个连续值,根据样本上的一些特征,预测连续值结果。

聚类问题:因为没有标签以及明显的划分标准,根据样本的相似性或者关联关系,把类似的归于一类


常用的一些术语:

对于结构化数据,每行叫做样本,每列叫做特征或者属性,所谓的百万数据量,也就是有百万的行


整个机器学习完整的流程包括:

数据 + 算法 -->应用于工业问题

  • 数据:里面有特征工程,包括数据的清洗与选择。

数据还包括:训练集(训练模型),验证集(调整超参数),测试集(评估模型效果)。

验证集的选取:留出法(hold_out:因为工业界数据量够大,常用于工业界),交叉验证法(cross validation:由于比赛数据集较小,常用于比赛),自助法(bootstrap:用的比较少)

  • 算法:(1)假设函数:常见的一些机器学习模型。(LR,SVM,决策树等)

                  (2)损失函数:对模型的好坏进行评估。(交插熵,MSE,hingloss等)

                   (3)优化:对数据进行调整,达到最优的效果。(梯度下降,牛顿法等)


对于机器学习当中常见的训练集,验证集,测试集当中,其中验证集和测试集经常被人混用。

在有监督的学习中,验证集常被分成2-3个,即:训练集(train set),验证集(validation set),测试集(test set)

  • 训练集:估计模型,学习样本数据集,通过匹配一些参数来建立一个分类器,建立一种分类的方式,主要是用来训练模型的。
  • 验证集:确定网络结构或者控制模型复杂程度的参数。对于训练出来的模型,调整分类器的参数。
  • 测试集:检验最终选择的最优模型的性能如何。主要是测试训练好的模型的分辨能力。

划分验证集和测试集的原因:防止过拟合

如果全部的数据用于训练,那么训练出来的模型在测试集上表现良好,但是泛化能力不好。换一个新的数据集,模型的效果可能就比较差。

参考:北岛知寒 - 开源爱好者  https://www.cnblogs.com/crazyacking/p/6737955.html

 


一般情况下,我们在未知的样本下进行测试,来评估模型的性能如何。

但是在手上没有未知的样本的情况下,怎样进行可靠的评估?

常见的评估方法:

  • 留出法(hold-out):在全体数据当中,划分训练集和测试集。(一般工业界用这种方法,因为数据量较多,所以可以划分出来一部分数据作为测试集)注意:(1)数据保持分布一致,可以分层采样(2)多次重复划分,随机100次划分(3)测试集不能太大太小,一般为1/5 - 1/3
  • 交叉验证法(cross validation):常用的是10折交叉验证,把总体数据分为10分,每次从中取出来一份作为测试集,总共取10次,把10次的测试结果进行平均,作为最终的测试结果。如果把10折改为n折你那就相当于留一法
  • 自助法(bootstrap):有放回的进行重复采样,但是这样会导致数据分布有所改变。

 

 

参考:7月在线


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值