文章目录
数据
以下面的图,来分析机器学习数据的一些概念:
萼片长度 | 萼片宽度 | 花瓣长度 | 花瓣宽度 | 种类 |
---|---|---|---|---|
5.8 | 3.5 | 1.5 | 0.6 | se(0) |
7.2 | 3.5 | 1.6 | 0.5 | ve(1) |
3.1 | 2.5 | 1.6 | 0.2 | vi(2) |
- 数据集:上面这个整体的数据就叫数据集(data set)
- 样本:每一行的数据称为样本(sample)
- 特征:除最后一列,每一列表达样本的一个特征(feature)
- 标记:最后一列,称为标记
- 数学表达:第i个样本行写作 X ( i ) X^{(i)} X(i),第i个样本第j个特征值 X j ( i ) X^{(i)}_ {j} Xj(i),第i个样本的标记写作 y ( i ) y^{(i)} y(i) (种类是y,除了种类之外的都是x)
- 特征向量: X ( 1 ) X^{(1)} X(1)= { 5.8 3.5 1.5 0.6 } \left\{\begin{matrix} 5.8 \\ 3.5 \\ 1.5 \\ 0.6 \end{matrix} \right\} ⎩⎪⎪⎨⎪⎪⎧5.83.51.50.6⎭⎪⎪⎬⎪⎪⎫
- 样本表示:
{
(
X
(
1
)
)
T
(
X
(
2
)
)
T
(
X
(
3
)
)
T
(
X
(
4
)
)
T
}
\left\{\begin{matrix} (X^{(1)})^T \\ (X^{(2)})^T \\ (X^{(3)})^T \\ (X^{(4)})^T \end{matrix} \right\}
⎩⎪⎪⎨⎪⎪⎧(X(1))T(X(2))T(X(3))T(X(4))T⎭⎪⎪⎬⎪⎪⎫
下面是另外一个图
整个图表示特征空间,分类任务的本质就是在这个特征空间里面找一条直线划分。这里是二维空间,在高维空间里面也同理。
再举个栗子,如下图。对于下面的图像,每一个像素点都是特征。25乘以25的图像25*25=625个特征。下图的图像是黑白的,对于彩色的图像,特征更多。
机器学习任务
分类任务
二分类
- 判断邮件是否垃圾邮件
- 判断发放给客户信用卡是否有风险
- 判断疾病患者是良性肿瘤还是恶性肿瘤
- 判断某只股票涨跌
多分类
- 一些算法只支持完成二分类任务
- 当是多分类的任务可以转换成二分类的任务
- 有一些算法泰瑞可以完成多分类
- 通过一定的方法,二分类算法可以解决多分类问题
回归任务
回归任务的结果是一个连续的数字,而不是一个类别,例如房屋价格、市场分析、学生成绩、股票价格等
- 有一些算法只能解决回归问题
- 有一些算法只能解决分类问题
- 有一些算法技能解决回归问题,又能解决分类问题
- 一些情况下,回归任务可以简化成分类任务
什么是机器学习
机器学习过程
机器学习方法分类
监督学习
监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。例如:
- 图像已经拥有了标定信息
- 银行已经积累了一定的额客户信息和他们信用卡的信用情况
- 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
- 市场积累了房屋的基本信息和最终成交的金额
监督学习的算法有如下一些:k近邻、线性回归和多项式回归、逻辑回归、SVM、决策树和随机森林
非监督学习
非监督学习,给机器的训练数据没有任何“标记”或者“答案”。它可以用来对没有标记的数据进行分类或者聚类分析,或者对数据进行降维处理(特征提取、特征压缩如PCA )
半监督学习
半监督学习是指一部分数据有“标记”或者“答案”,另一部分数据没有的机器学习过程。它更多的用于处理由于各种原因产生标记缺失的情形。这种情况下,我们通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测。
增强学习
根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式。
无人驾驶、智能机器人这种都属于增强学习。之前我们讲的监督学习和半监督学习是增强学习的基础。
其它分类
在线学习和批量学习(离线学习)
- 批量学习 (Batch Learning)
批量学习的优点是简单,缺点是不能适应环境变化,需要定时重新批量学习。但是每次重新批量学习,运算量很大。在某些环境变化非常快的情况下,重新批量学习变得不可能。 - 在线学习(Online Learning)
在线学习的优点就是批量学习的缺点,能够及时反映新的环境变化。但是同时又会带来新的问题,新的数据可能会带来不好的变化,需要加强对新的数据进行监控。它适用于数据量巨大,完全无法批量学习的情况。
参数学习和非参数学习
- 参数学习 Parametric Learning
一旦学习到了参数,就不在需要原有的数据集。它的定义:假设可以最大程度地简化学习过程,与此同时也限制可以学习到是什么,这种算法简化成一个已知的函数形式,即通过固定数目的参数来拟合数据的算法。
Logistic Regression、DA(线性判别分析)、朴素贝叶斯和简单神经网络都属于参数学习 - 非参数学习 Nonparametric Learning
非参数学习不对模型进行过多的假设,但是非参数学习不等于没有参数。定义:不对目标函数的形式作出强烈假设的算法称为非参数机器学习算法,通过不做假设,它们可以从训练数据中自由地学习任何函数形式,即参数数量会随着训练样本数量的增长的算法。
KNN、决策树(比如CART和C4.5)、SVM等都是非参数学习算法。
其他
在机器学习领域,有很算法,具体到某个问题,有的算法可能会更好。但是由于数据集和评判标准的不同,还有各种各样别的因素,我们不能认定一种算法绝对比另外一种算法好。因为脱离实际问题去谈算法的好坏,是没有意义的,所以在我们面对一个具体问题的时候,尝试用多种算法进行对比试验,是很有必要的。