机器学习基础

Mitchell定义机器学习:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。

1. 任务

通常机器学习任务定义为机器学习系统应该如何处理样本,而样本是我们希望机器学习系统处理的对象或事件中已经被量化特征的集合。样本通常表示为一个向量 x ∈ R n \mathbf{x} \in R^n xRn,其中向量的每一个元素 x i x_i xi是一个特征。

常见的机器学习任务如下:

任务目标代表性算法
分类指定某些输入属于 k k k类里的哪一类,即学习函数 f : R n → { 1 , ⋯   , k } f: R^n \rightarrow \{1,\cdots, k\} f:Rn{1,,k}决策树、支持向量机、贝叶斯分类器、Softmax分类
回归对给定输入预测数值,即学习函数 f : R n → R f: R^n \rightarrow R f:RnR逻辑回归、支持向量回归、Softmax回归
去躁基于损坏的样本 x ~ \tilde{\mathbf{x} } x~预测原样本 x \mathbf{x} x,即预测条件概率分布 p ( x ∣ x ~ ) p(\mathbf{x}\vert\tilde{\mathbf{x} }) p(xx~)去躁自编码器
密度估计学习函数 p m o d e l : R n → R p_{model}:R^n \rightarrow R pmodel:RnR高斯混合模型

2. 性能度量

性能度量 P P P是特定于系统执行的任务 T T T而言的。

  • 准确率(accuracy): 模型输出正确结果的样本比例。
  • 错误率(errorrate):模型输出错误结果的样本比例。
  • 精准率(precision):预测为正例的结果中真正正例占的比例(二分类问题)。
  • 召回率(recall):所有正例中预测出真正正例占的比例(二分类问题)。
  • F1:精准率和召回率的调和平均。
  • TPR(真正例率):与召回率相同的定义。
  • FPR (假正例率):所有负例中预测出真正负例所占的比例。
  • ROC (Receiver Operating Characteristic):以TPR为纵坐标,FPR为横坐标作图。
  • AUC(Area Under ROC Curve):ROC曲线下所占的面积。

3. 经验

算法在整个数据集上获取经验,可分为监督学习算法和无监督学习算法两种。

监督学习算法训练含有很多特征的数据集,并且数据集中的样本都有一个标签 y \mathbf{y} y,学习到的是条件概率 p ( y ∣ x ) p(\mathbf{y|x}) p(yx)

无监督学习算法训练含有很多特征的数据集,一次观察多个样本,试图显式或隐式地学习出概率分布 p ( x ) p(\mathbf{x}) p(x)。如聚类算法、主成分分析、自编码器等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值