机器学习入门

什么是机器学习

从大量现象中提取反复出现的规律与模式。这一过 程在人工智能中的实现就是机器学习。

机器学习是计算机基于数据构建概率统计 模型并运用模型对数据进行预测与分析的学科。

解决什么问题

  • 问题不能是完全随机的,需要 具备一定的模式;

  • 问题本身不能通过纯计算的方法解决;

  • 有大量的数据可供使 用。

机器学习的任务,就是使用数据计算出与目标函数最接近的假设,或者说拟合出最精确的模型 。

在机器学习中,数据并非通常意义上的数量值,而是对于对象某些性质的描述。被描述的性 质叫作属性,属性的取值称为属性值,不同的属性值有序排列得到的向量就是数据,也叫实 例。

根据线性代数的知识,数据的不同属性之间可以视为相互独立,因而每个属性都代表了一个 不同的维度,这些维度共同张成了特征空间

每一组属性值的集合都是这个空间中的一个点,因而每个实例都可以视为特征空间中的一个 向量,即特征向量

预测问题可以分为以下三类。

分类问题:输出变量为有限个离散变量,当个数为 2 时即为最简单的二分类问题;

回归问题:输入变量和输出变量均为连续变量;

标注问题:输入变量和输出变量均为变量序列。

根据训练数据是否具有标签信息,可以将机器学习的任务分成以下三类。

监督学习:基于已知类别的训练数据进行学习;

无监督学习:基于未知类别的训练数据进行学习;

半监督学习:同时使用已知类别和未知类别的训练数据进行学习。

误差

误差性能就成为机器学习的重要指标之一。

在机器学习中,误差指分类错误的样本占全部样本的比例。

误差可以进一步分为训练误差和测试误差两类。

  • 训练误差指的是学习器在训练数据集上的误 差,也称经验误差;

  • 测试误差指的是学习器在新样本上的误差,也称泛化误差。

训练误差描述的是输入属性与输出分类之间的相关性,能够判定给定的问题是不是一个容易 学习的问题。测试误差则反映了学习器对未知的测试数据集的预测能力,是机器学习中的重 要概念。

过拟合出现的原因通常是学习时模型包含的参数过多,从而导致训练误差较低但测试误差较 高。

与过拟合对应的是欠拟合。如果说造成过拟合的原因是学习能力太强,造成欠拟合的原因就 是学习能力太弱,以致于训练数据的基本性质都没能学到。

常用算法:

线性回归

朴素贝叶斯

决策树

支持向量机

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

林木森^~^

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值