第一章 绪论:初识机器学习
1. 什么是机器学习?
Arthur Samuel的定义:
机器学习,是一种赋予计算机无需直接编程完成的学习能力的一个研究领域。
Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
Tom Michell的定义:
一个适当的学习问题可以定义为:计算机程序从经验E中学习解决某一任务T进行某一性能度量P,通过P测定在T上的表现因经验E而提高。
Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
eg. 跳棋游戏
E = 玩跳棋的经验
T = 下跳棋的过程
P = 下场跳棋获胜的可能性
机器学习中最主要的两类:监督学习和无监督学习。
监督学习:我们会教计算机做某件事。
无监督学习:我们让计算机自己学习。
2. 监督学习
监督学习:从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。
我们给算法一个数据集,其中包含了“正确答案”,根据这个数据集做预测。
监督学习的训练集要求包括输入输出,也可以说是特征和目标。
训练集(training set)符号:
m = 训练样本数
x = 输入变量(特征)
y = 输出变量(目标变量)
(x, y) = 一个训练样本
(x^(i), y^(i)) = 第i个训练样本
监督学习训练过程
得到假设函数h,h根据输入x的值得到y的值,即h是x到y的一个映射。
监督学习可分为:回归问题和分类问题。
2.1 回归问题
预测连续输出值。根据样本集拟合出一条连续曲线。如预测房价:
回归预测建模是将输入变量(X)的映射函数(f)近似为连续输出变量(y)的任务。
2.2 分类问题
预测离散输出值。如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”:
3. 无监督学习
无监督学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。
输入数据无标签。