[学习方法]下足了功夫,弄清了概念,做好了作业,自然会取得好成绩。
机器学习?
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。
有了学习算法-> 提供经验数据给算法-----> 产生模型; 在面对新的情况时(预测),模型会给我们提供相应的判断。
小结:
- 机器学习是利用经验来改善系统自身的性能。
- 机器学习研究内容是从数据中产生”模型“的算法,即研究学习算法。此算法必须依赖于数据。
- 核心点: 提供经验数据给算法–>学习算法---->model(purpose == results)
一、基本术语
- 数据集: 记录的集合。
- 样本 | 示例: 每条记录是关于一个事件或对象的描述。
- 属性 | 特征:反映事件或对象在某方面的表现或性质的事项。
- 属性空间 | 样本空间 | 输入空间 : 属性(特征)张成的空间。
- 特征向量:属性(特征)空间,每个样本都可在空间中找到自己的坐标位置。每个点对应一个坐标向量,把一个样本称为”特征向量 “。
助理解:
现有一堆西瓜的数据,例如:
a. (色泽 = 青绿 ; 根蒂 = 蜷缩 ; 敲声 = 浊响)
b. (色泽 = 乌黑 ; 根蒂 = 稍蜷 ; 敲声 = 沉闷)
c. (色泽 = 浅白 ; 根蒂 = 硬挺 ; 敲声 = 清脆)
D = {a,b,c} ——> 数据集
a、b、c称为一条记录——> 样本或示例
每个样本都有三个特征(属性)
这三个特征构成了三维空间 -> 特征向量
6.学习| 训练 : 从数据中学得模型的过程。
7. 训练集:训练过程中使用的数据称为”训练数据“,每个样本称为一个”训练样本“,训练样本组成的集合称为”训练集“。
8. 假设:学得模型对应了关于数据的某种潜在的规律。