机器学习定义
经典定义:利用经验改善系统自身的性能
经验 -> 数据
从某种意义上,机器学习是分析数据的技术 or 关于学习算法的设计分析和应用的学问
主要研究领域:智能数据分析【数据分析用计算机算法来做】
类别标签(label):
对数据的分类类别
训练数据:
历史数据
模型:
从数据中产生的东西,可以理解为一种神经网络或一种规则
学习算法(learning algorithm):
从数据到模型的训练
机器学习理论
机器学习常用于解决高度不确定型,高度复杂性的问题
概率近似正确,以很高的概率得到很好的模型
基本术语
数据部分
数据集:所有数据所构成的集合
训练:用拿到的数据建立模型的过程
测试(test):实际上是“用模型”
两层含义 1.为了解模型的性能 -> 测试数据在训练数据之外,测试数据的结果已知
2.为得到结果 -> 输入一个新的数据,用模型判断从而得到结果
示例(instance):样本的特征值,是没有结果的
样例(example):是有结果的
样本(sample):数据或数据集
属性(attribute)/ 特征(feature):样本所具有的性质或特性 eg.颜色
属性值:属性上的取值 eg.颜色为青绿色
属性空间 / 样本空间 / 输入空间:多个属性所构成的空间,包含所有样本,每一个样本都是一个向量
标记空间 / 输出空间:为多元输出回归时,输出(标记)也是一个向量
模型部分
假设(hypothesis):模型学到的关于结果的一个规律 ,不一定是对的
真相(ground-truth):真实的结果,是对的
学习器(learner):一个算法对于一个数据和一个参数在给定示例化之后得到的一个结果
输出部分
离散输出:分类 eg.Yes or No
二分类:最基本的问题
多分类:都可拆分为若干个二分类问题
## 分类问题是机器学习研究的最基本的问题
连续输出:回归(regression) eg.0~1之间
学习任务部分
监督学习:数据里面有期望的结果
典型任务:预测类任务
无监督学习:数据没有期望的结果
典型任务:聚类,密度估计
未见样本(useen instance):未来的新数据
未知”分布“:假设未来的数据和原来的数据都来自同一个分布,符合同一个规律
独立同分布(i.i.d.):每个样本都是独立的,根据同一个分布产生的假设
## 独立同分布假设是机器学习利用概率统计来推断概率分布的前提条件
泛化能力(generalization):模型处理新的数据的能力,从特殊到一般
特化能力(specialization):与泛化对应,从一般到特殊
泛化界:推导出的最小误差的估计,判断模型是否做得到
归纳偏好(Inductive Bias)
机器学习算法在学习过程中对某种类型假设的偏好
一般原则 / 基本准则:奥卡姆剃刀(Occam's razor)
==> 若非必要,勿增实体,选取最简单的模型的思想。
## 学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!
** 算法的选择要注重考虑问题本身!
NFL定理(No Free Lunch Cereal)
一个算法La若在某些问题是上比另一个算法Lb好,比存在另一些问题Lb比La好
NFL定理的重要前提:所有”问题“出现的机会相同、或者所有问题同等重要
## 具体问题,具体分析!
## 最优方案往往来自:按需设计,量身定制