引言
机器学习:致力于通过计算的手段,利用经验(数据)来改善系统自身的性能。即在计算机上从数据中产生模型的算法。
基本术语
1.数据集(data set):记录的集合
2.样本(sample):记录是关于事件或对象的描述
3.属性(attribute/feature):反应事件或者对象在某方面的表现或特征
4.d维样本空间的向量:d指属性的个数
5.学习、训练:指在数据(学习数据)中学习模型的过
6.预测,标记(label):得到的结果,(事例x,标记y)标记空间
7.若预测的是离散值–分类(classification);若预测的结果是连续值–回归(regression);只涉及到两个类别(binary classification)的任务,通常称其中一个叫做正类,另一个是反类;涉及多个类别称为多分类任务。
8.测试(testing):进行预测的过程
9.聚类(clustering):将训练集中像本分成若干组(簇cluster),这些自动形成的簇可能对应一些潜在概念(这些概念我们事先不知道,训练样本通常不含有标记信息)。
10.有/无监督学习(supervised learning):前者include分类和回归,后者包括来聚类
11.泛化能力(generalization):学的模型适用于新样本的能力
假设空间
科学推理的手段:
- 归纳(induction):从特殊到一般的泛化过程
- 演绎(deduction):从一般到特殊的特化过程
归纳学习:从样例中学习,eg布尔概率学习
归纳偏好
机器学习过程中对某种类型的偏好(inductive bias)。
奥卡姆剃刀原则:若有多个假设和观察一直,则选择最简单的那个。
对应着什么样的模型更好的假设。
发展历程
略
应用现状
深入研究和整合大数据时代的三大技术:机器学习、云计算、众包。
数据挖掘和机器学习
- 数据挖掘是从海量数据中发掘知识,必然涉及到对海量数据的管理分析,数据数据库的研究是为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术