机器学习入门（理论）

最新推荐文章于 2023-08-25 10:25:48 发布

峰清羊

最新推荐文章于 2023-08-25 10:25:48 发布

阅读量240

点赞数 5

分类专栏：机器学习文章标签：机器学习概念

本文链接：https://blog.csdn.net/weixin_41822392/article/details/89632881

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

从机器学习入门开始，一步步做到神经网络，从原理到实现例程，不间断更新博客。

一、定义
机器学习是利用数据来进行训练模型，并应用到未知同规格的数据当中，应用模型的过程；该过程可以让机器模拟人学习，让其变得智能化。
二、机器学习涉及到的概念
1、分类：监督学习、非监督学习
监督学习：训练模型时所用的数据时有标签的数据，就是有明确分类的数据，这些模型可以分类为监督学习；比较基础的监督学习算法有knn、naive Bayes、decision tree、SVM、xgboost、随机森林等；
非监督学习：训练模型时用的数据时是没有标签的数据，就是没有明确分类的数据，这些聚类模型可以分类为非监督学习；基本的聚类算法有K—means、DBSCAN等
强化学习：
2、数据样本、特征空间
特征空间：一组数据样本所有的特征维度组成该数据的特征空间，
数据样本：一组带有标签或者不带有标签的数据。
三、机器学习三要素
机器学习=模型+策略+方法
1、模型：是所要学习的条件概率分布或者决策函数。
2、策略：损失函数（平方损失函数、对数损失函数、对数似然损失函数等）、和风险函数（如极大似然函数是经验风险的代表）
3、算法：学习模型具体的计算方法，根据学习策略，从假设空间中选择最优模型，最后考虑用算法求解最有模型（机器学习问题转为最优化问题）。
四、模型评估与模型选择（后面会写一篇专门关于混淆矩阵、f1score、ROC、AUC、模型的泛化能力等的博客）
五、常用的一些增强模型泛化能力的方法
1、正则化：分为L1正则化、L2正则化，方式为在损失函数（目标函数、最优化函数）中加一个惩罚项；
2、交叉验证&k折交叉验证：将数据集分割成k块，交替选择训练集、验证集、测试集，进行模型训练，比较得到测试误差最小的模型；
3、数据增强：通俗的说就是自己造数据。
泛化能力是指：由已知数据集学习到的模型对未知数据的预测能力。

峰清羊

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门（理论）

从机器学习入门开始，一步步做到神经网络，从原理到实现例程，不间断更新博客。一、定义机器学习是利用数据来进行训练模型，并应用到未知同规格的数据当中，应用模型的过程；该过程可以让机器模拟人学习，让其变得智能化。二、机器学习涉及到的概念1、分类：监督学习、非监督学习监督学习：训练模型时所用的数据时有标签的数据，就是有明确分类的数据，这些模型可以分类为监督学习；比较基础的监督学习算法有knn、n...
复制链接

扫一扫