- BP算法原理
- 过拟合, 正则项
- 异或 与 或 非 的神经元实现
- SVM
- 性能指标
绪论
机器学习能干什么
- 光学字符识别
- 语音识别
- 下棋
- 自动驾驶
- 垃圾邮件分类
- 商品推荐
- 人脸识别
机器学习的发展
让机械具备基本智能(木牛流马) -> 图灵测试(差分机, 解密码) -> 定理证明(四色定理, 第一个用人工智能, 逻辑推理的方法推出的人没有推出的定理) , 知识工程(人的智慧是因为有知识) -> 神经网络(从机器上模拟人的记忆)
神经网络发展有三次高峰
- 模拟一个神经元
- BP算法, 两层神经网络
- 深度神经网络 (多层)
手写字符识别
- 贝叶斯法则
国际象棋
- IBM DeepBlue ||, 1997
- 每秒检索 2 亿步棋
- 促进他们买机器, 买软件
- AlphaGo
总结
-
训练 : 从历史经验 (带专家标注) 中学习规律 (一个对应关系)
- 假设 : 历史经验, 和要预测的任务 都需要来源同一分布, 任务相关的, 长时间不变的. 对于一些变化因素多的不适合机器学习
-
预测 : 利用学习的规律预测新的样本结果 (提供x, 利用学习到的f, 预测y)
-
只能解决一些客观问题, 主观问题无能为力.
-
program by learning from experience
-
计算机程序发现数据中的规律, 并根据规律给出预测的一种智能技术.
机器学习算法分类
- 分类(classification) : 把事物按标准分成一些类别
- 垃圾邮件诊断
- 疾病诊断
- 是否发放信用卡
- 是否录用
- y=f(x) , y={-1, +1, 2, 3, 4}
- 回归(Regression) : 由过去, 现在的数据计算出未来的状态
- 预测身高
- 预测年龄
- 预测方形盘旋转角度
- y=f(x), y为连续值
- 聚类(clustering, 无监督学习) : 没有类别的标准, 按事物间的相似性划分成一些类别.
- 人以类聚, 物以群分
学习路线
- 线性回归
- 单变量线性回归
- 多变量线性回归
- 线性判别分析 (用回归的方法做分类)
- 罗杰斯特回归 (分类方法) (Logistic Regression) 和 正则化 (Regularization)
- 神经网络
- representation
- learning
- introduction to deep learning
- 支持向量机(support vector machine)
- Learning from network : PageRank and Graph Ranking
- Dimensionality Reduction & Concept Learning
- PCA (Principle Component Analysis) 主成分分析
- NMF (Non-Negative Matrix Factorization) 非负矩阵分解
- Clustering (Unsupervised Learning)
- Bayes Classification 贝叶斯分类
- Ensemble Learning : Boosting, Bagging and EM(期望最大化)
- Evaluation of Machine Learning 机器学习的评估
- Theory of Statistical Learning 统计学习理论
Linear Regression
问题和模型
- 通过一个线性模型根据输入的向量和值预测一个实数值
- 定价, 物质成分农浓度, 资信
- 训练模型其实就是求theta0 和 theta1
- h : hypothesis
- 皮尔森相关系数越大, 线性相关程度越高
模型表示
损失函数
-
最小二乘法 (最小化误差的平方和寻找最佳的匹配参数)
- 解决方法由高斯提出, 模型是由高尔顿提出, 两个人不一样
-
关于模型参数(theta0, theta1/)的函数, 这里的x,y是已知值
-
把每一个theta0, theta1, 都用这个损失函数求一个值, 选择最小值, 用来选出最好的theta0, theta1
符号表示
- x : 一个数
- x : 向量
- X :多个向量 (m*n)
- m : 表示样本个数
- n : 表示特征
- x^(i) : 第i组 数据
优化损失函数
- 目标 : 使用带标注的数据挑选出最好的参数组合 (theta0, theta1)
- 方法 : 高斯的最小二乘法
- 解析式求导
- 梯度下降法
解析式求导
- X^T * X 需要可逆
- 矩阵满秩
- 伪逆 : pinv() ; 逆 : inv
- 如果用一次项 : 求导后theta消失
- 如果用三次方, 无法求最值, theta无穷小时最小, 但是此时模型并不是最优的
- i表示行, k表示列
- 向量都是列向量
什么时候X^T * X不可逆
- 冗余性质
- 样本特征 >> 样本个数