机器学习的定义:
机器学习是人工智能的一个分支,主要关于构造和研究可以从数据中学习的系统。
机器学习的任务类型:(吹牛逼可以用)
监督学习(supervised learning):
回归 (Regression)
分类 (classification)
排序 (ranking)
非监督学习:
聚类 (clustering)
降维 (dimensionality reduction)
概率密度估计(density estimation)
半监督学习(semi-supervised learning):
增强学习(reinforcement learning):
迁移学习(transfer learning):
机器学习任务的一般步骤:
1. 特征工程(FE feature engineering)
有可能是最重要的步骤
2. 问题建模,模型选择
目标函数/决策边界的形状
选择什么样的模型(决策边界的形状)
使用什么样的目标函数来进行训练
3. 模型训练
根据数目估计模型参数
优化求解:求目标函数的极小值
4. 评估, 在校验集上评估模型的性能
5. 模型的应用和预测
线性模型转化成非线性模型:
- 基函数: 、exp、log、样条函数、决策函数....
- 核化:将原问题转化成对偶问题,将对偶问题中的向量点积<x, y>换成核函数k(x, y)
优化:
直接求解
梯度下降(Gradient descent)
迭代终止条件:
最大迭代次数
相邻两步的变化量小于某个预设值
二阶牛顿法
部分简写说明:
RMS : root mean square 均方根
MAP : maximum a posteriori 最大后验概率
generlization : 推广性, 学习器在新的测试数据上的表现
overfitting:过拟合
RSS : residual sum of square
overshoot the minimum : 学习率(步长)过大的时候,可能会出现跳过局部最小值点的情况
SGD Stochastic gradient descent :随机梯度下降
CV : cross validation