专业词汇
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
unsupervised learning | 无监督学习 | clustering algorithm | (无监督)聚类算法 |
training set | 训练集 | hypothesis | 假设函数 |
classification problem | 分类问题 | univariate | 单变量 |
terminology | 术语 | parameters | 参数 |
correspond to | 拟合 | square difference | 平方差 |
cost function | 代价函数(损失函数) | convergence | 收敛 |
calculus | 微积分 | partial derivatives | 偏导数 |
partial derivatives | 偏导数 | gradient descend | 梯度下降 |
simultaneously | 同时地 | regression problem | 回归问题 |
matrix | 矩阵 | row | 行 |
vector | 向量 | column | 列 |
tossing up | 介绍 | scalar | 标量 |
minus | 减(负) | subtraction | 减法 |
linear algebra | 线性代数 | identity | 单位矩阵 |
implicit | 隐形的 | A inverse | A- |
singular matrix | 奇异矩阵 | transpose | 转置 |
multivariate linear regression | 多元线性回归 | polynomial regression | 多项式回归 |
iterative algorithm | 迭代算法 | optimal value | 最优解 |
normal equation | 正规方程 | discrete | 离散 |
fraudulent | 欺诈 | malignant | 恶性 |
benign | 良性 | ituition | 例子 |
generalize | 泛化 | forward propagation | 前向传播 |
clustering | 聚类 | dimensionality reduction | 降维 |
threshold | selective search | 选择性搜索 | |
图像切割 |
第二节 代价函数
- supervised learning 已知类型数据特点等
- unsupervised learning 不知类型 ,将数据交给算法,具体含义自行定义
- cost function 需要取到最小值 回归问题常用 平方误差代价函数
- gradient descend 不仅用在线性回归中,重点是同步更新
- Batch梯度下降的线性回归模型(α控制下降速度):得到的是凸函数 所以是全局最优解(非局部)
第三节 矩阵向量
- 结合律 associative property
- 交换律 commutative
#矩阵求逆
import numpy as np
a = np.array([[1, 2], [3, 4]]) # 初始化一个非奇异矩阵(数组)
# 矩阵对象可以通过 .I 更方便的求逆
A = np.matrix(a)
print (A.I)
第四节 多元线性回归 ①梯度下降②正规方程
- scale the feature 特征缩放 转换特征值范围 加快梯度下降速度(实质迭代)
- α取值合适:太小 收敛慢 太大 不收敛 超过水平线
- 正规方程 一次性求解最优解:最小二乘拟合
θ = ( X T X ) − 1 X T θ= (X^{T}X)^{-1}X^T θ=(XTX)−1XT
- 对比:
数据大 迭代 选α 梯度下降法
数据少 正规方程
第六节
- 多元logistics回归 ——用于分类
- 决策边界 decision boundary
- 代价函数 极大似然估计
-
提高运行速度 高级算法
-
多元分类
第七节 过拟合
-
欠拟合 过拟合
过拟合:feature θ太多使得损失函数接近0,无法泛化
solve:reduce feature/regularization(正则化)
- 正则化:simpler hypothesis 最小化代价函数,太小会直接=θ0 欠拟合
- 线性回归的正则化①梯队下降 ②正规方程:可解决不可逆
- 逻辑回归正则化
第八节 非线性——神经网络
- X0是偏置 activation 激活函数 θ是参数=weight
- 依次计算 ,输入层激活函数,隐藏层激活函数,输出层激活函数 ——前向传播
- 神经网络实现逻辑and的过程(改变权重 实现不同逻辑 需要知道sigmoid函数特征)
- example:三个逻辑组成神经网络
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4UOZ1Hcm-1582892933319)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1581846435977.png)]
- 多分类的问题
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4GUWaL9p-1582892933324)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1581847010071.png)]
第九节 神经网络反向传播 代价函数
- cost function
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QQiAckY6-1582892933328)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582008760470.png)]
- 反向传播计算公式 (此图2.3层有误差)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ek8xaN0G-1582892933331)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582009204750.png)]
-
算法过程
训练集,
设置激活函数,
for i=1 to m
正向传播,算出每一层 激活值a
利用 y (i) ,算出每层误差 δ (L) = 假设输出-目标输出
反向传播,算出δ (L-1) ,δ (L-2) ,直到δ (2) ,无δ (1)
算出Δ
算出Dij 即代价函数 每个参数的偏导数 可以用梯度下降法了
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XltIWNXN-1582892933333)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582010220898.png)]
- 反向传播具体过程 前一层参数(δ×权重)之和
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r3W2JvXw-1582892933337)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582011306338.png)]
- 验证集选择多项式的次数 测试集算误差
- 高方差——过拟合 高偏差——欠拟合 注意学习曲线 P63
- 怎么解决 p64
-
解决机器学习问题步骤:
开始一个简单的算法 实施交叉验证
画出学习曲线决定是否用更多数据还是特征
误差分析 查看被错误分类的东西有何特征(交叉验证集中做误差分析!!!!)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vhZB0ius-1582892933340)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582107377688.png)]
第十二节 支持向量机SVM
-
最大间距分类器
-
核函数(kernels):复杂的边界
接近标记点l(1)和l(2)的 就是y=1 远离的 y=0
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KJx4VDa3-1582892933342)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582630186335.png)]
- 选择规律
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H9aPeAjp-1582892933344)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582633502435.png)]
第十三节 无监督学习 聚类算法 clustering K mean
如何初始化聚类中心(K<10):多次随机初始化,尽量得到全局最优解,以防得到局部最优解(选取代价最小的)
k怎么选 手动,根据需求(T shirt)
第十四节 Dimensionality Reduction
purpose:reduce the feature’s redundancy_save data space_ data compression
how: 降维,在某一维度投影
apply: Data Visualization
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9MhXKNIl-1582892933346)(C:\Users\Lee\AppData\Roaming\Typora\typora-user-images\1582793899247.png)]
PCA主成分分析: principal components analysis
建议:
建议: 基本上可以说是必看的最基础的课程了,虽然说得很好,但是是非常基础的课程,很多算法现在都用不上了,接着可以接着看他的deeplearning,主流的方向CV、NLP都有介绍,光看不顶用,一定记得实现一下;想最快感受一下cv可以试试tensorflow官方demo手写数字数据集,用tf.silm或者torch很快就可以搭出来,也不需要太大的算力,CPU跑大约五分钟,感受一下机器学习的魅力,然后投身于等待大牛开发新的框架再自己调参的伟业吧=_=