机器学习基础
数据集(data set ):比如,鸢尾花数据: 特征 - 种类 (全部数字化)
样本(Sample):每一行数据
除种类外,每一列表达样本的一个特征(feature):用矩阵 X描述
第i个样本行写作 X ( i ) X^{(i)} X(i)( 也叫:特征向量) 第i个样本的第j个特征值 X j ( i ) X^{(i)}_j Xj(i)
标记(label): 最后一列(种类),也是机器学习的目的(分类),用向量y表示
【注】约定用大写字母表示矩阵,小写字母表示向量
第i个样本的标记写作 y ( i ) y^{(i)} y(i)
特征空间(feature space):分类任务本质就是在特征空间进行划分
机器学习的基本任务
分类任务
一系列决策过程
二分类:选还是不选
多分类:选哪个 -> 可以转化为二分类
有些算法天然可以完成多分类任务
多标签分类:
回归任务
标签是一个连续的数字的值,不是类别
预测房屋价格
有些情况:回归任务可以简化为分类任务
分类方法
监督学习
data set 有标记(答案)
比如: KNN,线性回归和多项式回归,逻辑回归,SVM,决策树和随机森林
非监督学习
data set 没有标记,聚类分析
对数据进行降维处理(可视化)
特征提取:丢掉无用特征
特征压缩:PCA(合并相关特征,近似化)
异常检测
半监督学习
部分有标记,部分没标记
先用无监督学习处理,再用监督学习
增强学习
根据周围环境采取行动,得到反馈,不断优化模型
强人工智能
其他分类方法
批量学习 Batch Learning ( 离线学习 Offline Learning)
提前训练出模型 (一个黑盒)
优点:简单
问题:如何适应环境变化? → \rightarrow → 定时重新批量学习
缺点:运算量大,在某些环境变化很快的情况下,无法适应
在线学习 Online Learning
将 输入样例 和 输出的正确结果,作为样本输入重新迭代进训练
优点:及时反映新的环境变化
问题:新的数据带来不好的变化? → \rightarrow → 加强对数据进行监控
参数学习 Parametric Learning
假设统计模型:找参数 一旦学到了参数,就不再需要原有的数据集
非参数学习 Nonparametric Learning
不对模型进行建模、假设
【注】非参数不等于没参数!
- 如何选择机器学习算法?
(KNN,线性回归,多项式回归,逻辑回归,模型正则化,PCA,SVM,决策树,随机森林,集成学习,模型选择,模型调试)
奥卡姆的剃刀:简单的就是好的 特定领域可能特定算法更好