前言
就周志华所著《机器学习》来学习“机器学习”。
绪论篇
一、机器学习是什么?
机器学习主要研究如何通过数据来产生**”模型“(利用经验判断未知**)。
二、基本术语
1.数据
假定我们收集了一批关于西瓜的数据,例如(色泽=青绿; 根蒂=蝽缩; 敲声=浊响),(色泽=乌黑; 根蒂=稍蟋; 敲声=沉闷),(色泽=浅白; 根蒂=硬挺;敲声=清脆),…,每对括号内是一条记录, “ = ” 意思是 “ 取值为”。
- 样本(sample)/示例/特征向量:一个事件或一个对象的描述(此处为一条记录)
- 特征(feature)/属性:反映事件或对对象在某方面的表现或性质的事项(例如“色泽”)
- 属性值:属性的取值(例如“青绿”)
- 数据集:记录的集合
- 属性空间:属性张成的空间
例如我们把“色泽” “根蒂” “敲声作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置
2.训练
- 学习/训练:从数据中学得模型
- 训练数据:训练过程中使用的数据
- 训练样本:训练过程中使用的样本
- 训练集:训练样本组成的集合
- 假设:学得模型对应了关于数据的某种潜在规律
- 真相/真实:潜在规律自身
要建立这样的关于“预测” (prediction)的模型 ,我们需获得训练样本的“结果”信 息 例 如 “ (( 色 泽 = 青 绿 ; 根 蒂 = 蜷缩 ;敲声 = 浊响)好瓜)”.这里关于示例结果的信息,例如“好瓜”,称为“标记”(label ); 拥有了标记信息的示例,则称为“样例” (example)。一般地,用(xi,yi)表示第之个样例,其中yi属于y是示例xi的标记,y是所有标记的集合,亦称“标记空间”。
3.假设空间
- 归纳:泛化
- 演绎:特化
- 假设空间规模:(属性取值1+1)X(属性取值2+1)X …… X(属性取值n+1)+ 1
·属性取值+1 ->可能与该属性无关
·最后+1->所有能行不存在,空集
4.归纳偏好
- 归纳偏好:在学习过程中对某种类型假设的偏好
- “奥卡姆剃刀”原则:若有多个假设与观察一致,择选最简单的那个
- NFL定理(No Free Lunch Theorem):无论算法聪明还是笨拙,它们的期望值相同(脱离实际问题,空泛的地讨论学习算法毫无意义)
总结
机器学习 ----绪论内容,主要介绍了基本定义及提供入门