机器学习入门(理论)

从机器学习入门开始,一步步做到神经网络,从原理到实现例程,不间断更新博客。

一、定义
机器学习是利用数据来进行训练模型,并应用到未知同规格的数据当中,应用模型的过程;该过程可以让机器模拟人学习,让其变得智能化。
二、机器学习涉及到的概念
1、分类:监督学习、非监督学习
监督学习:训练模型时所用的数据时有标签的数据,就是有明确分类的数据,这些模型可以分类为监督学习;比较基础的监督学习算法有knn、naive Bayes、decision tree、SVM、xgboost、随机森林等;
非监督学习:训练模型时用的数据时是没有标签的数据,就是没有明确分类的数据,这些聚类模型可以分类为非监督学习;基本的聚类算法有K—means、DBSCAN等
强化学习:
2、数据样本、特征空间
特征空间:一组数据样本所有的特征维度组成该数据的特征空间,
数据样本:一组带有标签或者不带有标签的数据。
三、机器学习三要素
机器学习=模型+策略+方法
1、模型:是所要学习的条件概率分布或者决策函数。
2、策略:损失函数(平方损失函数、对数损失函数、对数似然损失函数等)、和风险函数(如极大似然函数是经验风险的代表)
3、算法:学习模型具体的计算方法,根据学习策略,从假设空间中选择最优模型,最后考虑用算法求解最有模型(机器学习问题转为最优化问题)。
四、模型评估与模型选择(后面会写一篇专门关于混淆矩阵、f1score、ROC、AUC、模型的泛化能力等的博客)
五、常用的一些增强模型泛化能力的方法
1、正则化:分为L1正则化、L2正则化,方式为在损失函数(目标函数、最优化函数)中加一个惩罚项;
2、交叉验证&k折交叉验证:将数据集分割成k块,交替选择训练集、验证集、测试集,进行模型训练,比较得到测试误差最小的模型;
3、数据增强:通俗的说就是自己造数据。
泛化能力是指:由已知数据集学习到的模型对未知数据的预测能力。

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值