机器学习的基本概念

最新推荐文章于 2022-07-18 21:39:03 发布

Holidaylovesam

最新推荐文章于 2022-07-18 21:39:03 发布

阅读量680

点赞数

分类专栏： AI&Tensorflow 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alice_tl/article/details/89788034

版权

AI&Tensorflow 专栏收录该内容

17 篇文章 7 订阅

订阅专栏

下文包含一些机器学习的基本概念，比如监督学习和无监督学习的区别，常见的机器学习算法、模型评估、过拟合和欠拟合等等等等。

机器学习的对象是：具有一定的统计规律的数据。

机器学习根据任务类型，可以划分为：

监督学习任务：从已标记的训练数据来训练模型。主要分为：分类任务、回归任务、序列标注任务。

无监督学习任务：从未标记的训练数据来训练模型。主要分为：聚类任务、降维任务。

半监督学习任务：用大量的未标记训练数据和少量的已标记数据来训练模型。

强化学习任务：从系统与环境的大量交互知识中训练模型。

机器学习根据算法类型，可以划分为：

传统统计学习：基于数学模型的机器学习方法。包括SVM、逻辑回归、决策树等。

这一类算法基于严格的数学推理，具有可解释性强、运行速度快、可应用于小规模数据集的特点。

深度学习：基于神经网络的机器学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。

这一类算法基于神经网络，可解释性较差，强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。

每种算法都有自己的优势，也有自己的缺点，因此不存在这样的算法：它在所有的问题上都取得最佳的性能。

如何理解这些算法呢，可以参考我之前写的这篇文章：https://blog.csdn.net/alice_tl/article/details/78713250

机器学习三要素

机器学习三要素：模型、策略、算法。

模型：模型定义了解空间。监督学习中，模型就是要学习的条件概率分布或者决策函数。

模型是指训练的目的。模型是从数据里抽象出来的，对数据进行分析，找到规律就是模型。模型可以是确定性的，也可以是随机的。

策略：考虑的是按照什么样的准则学习，从而定义优化目标。

策略即是通过什么样的方法构造模型。因为目标是需要预测未知数据的性能足够好，而不是对已知的训练数据拟合最好。

算法：指学习模型的具体计算方法。通常采用数值计算的方法求解，如：梯度下降法。

现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的参数，使得结果变得更加优良。对算法的理解越深入，就越能发现问题的症结，提出良好的调优方案。

机器学习的分类器

最简单的方式是将预分类的样本样例，分为两个部分。

一部分是训练集（Traning Data），用来归纳分类器；

一部分是测试集（Test Data），用来评估样例。

也有的公司会将样例分为三部分，训练集、验证集和测试集。不同训练集和测试集的划分，挥产生不同的分类器，对未来性能的评估也是不同的。如果预分类样例数很少，那么这种现象就更明显。

什么是模型评估

模型评估的意义

目的：预测值和真实值的差异大小。

最简单的理解就是：预测值-实际值=求平方，即loss=（ y -`y ）² 。loss越小，则模型的准确度越高。

在模型的评估过程中，误差分析是常用的方式之一。通过观察误差样本，全面分析误差产生误差的原因，判断是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题。

过拟合和欠拟合

经常听到过拟合（overfitting）和欠拟合（underfitting）的概念。发生过拟合的主要原因是：使用过于复杂的模型，数据噪音，有限的训练集。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。

模型优化
工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。

一般来说，模型融合后都能使得效果有一定提升。而且效果很好。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习的基本概念

下文包含一些机器学习的基本概念，比如监督学习和无监督学习的区别，常见的机器学习算法、模型评估、过拟合和欠拟合等等等等。机器学习的对象是：具有一定的统计规律的数据。机器学习根据任务类型，可以划分为：监督学习任务：从已标记的训练数据来训练模型。主要分为：分类任务、回归任务、序列标注任务。无监督学习任务：从未标记的训练数据来训练模型。主要分为：聚类任务、降维任务。半监督学习...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。