机器学习初入门—举例中学习

最新推荐文章于 2023-07-22 16:48:18 发布

family_cy

最新推荐文章于 2023-07-22 16:48:18 发布

阅读量295

点赞数

分类专栏：理念学习文章标签：理念学习

本文链接：https://blog.csdn.net/family_cy/article/details/88532690

版权

理念学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

机器学习-入门理念

1.产生背景:

是英文名称Machine Learning(简称ML)的直译机器学习领域，又或者更大而化之的说人工智能方向，因为“阿尔法狗”等一系列的热门爆点话题，被推到了人前，受到越来越多人的关注~
无论你是什么领域的工作者，都一定多多少少听说过它的名号。

而与此同时，随着机器学习领域理论的成熟，越来越多的相关技术被应用于生活实践的方方面面，从事机器学习岗也成了很多计算机行业从业者的重点考虑。

因此接下来我会从我个人实际情况出发，带大家对“机器学习”进行初入门了解~

2.机器学习的概念：

这是。。。在这里插入图片描述
这张图片相信大家都很熟悉，没错就是Windows Phone上的语音助手Cortana，当初微软很晚才推出这款产品，他背后的核心技术理所当然的就是机器学习，它实现了人们一直想要的人机互动。如今各大手机平台上也有了类似的身影，大大方便了人们的日常生活！那它是怎样像人类那样学习交互的呢？其实相比传统的命令式的程序，机器学习用的是用户传入的数据。类似于概率推算的过程

举例说明：
例如你喜欢一个女孩子，而她和你一直相处和谐，于是你决定去向她表达你的想法，这种情况下成功的机率是很大的；然而相反，如果你们初识或者平时也聊不怎么来，那么你就得考虑一下了。
这个过程其实就和机器学习是类似的，你只要把参数和变量传入，机器来建立一个模型，就很可能实现这一过程啦~

我们把机器学习的过程和人类对历史经验归纳的过程做个比对。

在这里插入图片描述
现在是不是对机器学习有了点兴趣呢~

3. 监督学习和非监督学习

区别
监督学习：
顾名思意就好比有老师的教学，在已有知识背景条件下（老师教你的方法）去套用并训练这些技能，最终得到这些知识的运用方法,当以后遇到类似的问题，也能用这些模型来处理和解决它；
无监督学习：
自然就是无老师，没经验的自学，那么机器能做到吗？其实我们日常生活中就无处不在。以我自己为例，平时我对电脑硬件方面很有兴趣，算是一种个人爱好吧！当初的我对其还是一片空白是就好比无监督学习，但当我见过并用过许多硬件后，便在心里产生了好坏的分类区别了，接下来便和监督学习类似了，像有了“模型”。

4.泛化能力

泛化能力（generalization ability）是指机器学习算法对新鲜样本的适应能力。
学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。
通常期望经训练样本训练的网络具有较强的泛化能力，也就是对新输入给出合理响应的能力。应当指出并非训练的次数越多越能得到正确的输入输出映射关系。网络的性能主要用它的泛化能力来衡量。

对比不同模型的泛化能力时，采用不同的度量方法，往往得到不同的结果，所以什么样的数据模型是好的，不仅取决于算法和数据，还取决于任务需求。下面是回归任务和分类任务常用的性能度量。

在这里插入图片描述

算法来源：点击了解=》

5.过拟合和欠拟合（线性回归为例）

概念：
拟合的函数和训练集误差较大，我们称这种情况为 =》欠拟合
拟合的函数和训练集误差较小，我们称这种情况为 =》合适拟合
拟合的函数完美的匹配训练集数据，我们称这种情况为 =》过拟合

欠拟合：

合适拟合：（非完全拟合，和现实相近）
在这里插入图片描述
过拟合：（理想模型）

5.1各拟合的解决方法

欠拟合问题，根本的原因是特征维度过少，导致拟合的函数无法满足训练集，误差较大。

欠拟合问题可以通过增加特征维度来解决。

过拟合问题，根本的原因则是特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。

解决过拟合问题，则有2个途径：
1.减少特征维度; 可以人工选择保留的特征，或者模型选择算法
2.正则化; 保留所有的特征，通过降低参数θ的值，来影响模型

5.2交叉验证

5.2.1概念和思维解读

叉验证的目的：在实际训练中，模型通常对训练数据好，但是对训练数据之外的数据拟合程度差。用于评价模型的泛化能力，从而进行模型选择。

交叉验证的基本思想：把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对模型进行训练,再利用验证集来测试模型的泛化误差。另外，现实中数据总是有限的，为了对数据形成重用，从而提出k-折叠交叉验证。

对于个分类或回归问题，假设可选的模型为。k-折叠交叉验证就是将训练集的1/k作为测试集，每个模型训练k次，测试k次，错误率为k次的平均，最终选择平均率最小的模型Mi。
在这里插入图片描述
图片解读，go=>