文章目录
人工智能的发展史
自然语言处理–反向传播算法–硬件和算力问题–贝叶斯网络,马尔科夫链–深度学习(2007至今)
机器学习
有一个任务,基于一个评价的指标,学习一个经验。希望训练的模型能处理未知的数据
5个要点
任务task,模型model,目标函数objective(loss )function,优化器optimizer(SGD),评价指标evaluation metric
注:loss function是objective function的一种,都是衡量预测函数和实际函数的差值
分类
1,有监督学习(分类,回归)
2,无监督学习(KNN,KMeans)
3,强化学习(接受反馈不断调整)
感知机
模型
f是激活函数,使原来的线性函数产生非线性变化
线性回归,逻辑回归(加了激活函数),机器学习(神经网络)
激活函数
1,sigmoid (缺点:梯度爆炸,梯度消失)
2,Tanh
3,Relu
4,Softmax(每一个值除以所有值的和)
损失函数
J = 1/N *∑(y真实值-y预测值)
1,L1 loss
2,L2 loss (误差均方MSE)(常用)
监督学习分为:回归(y是负无穷到正无穷),分类(y是离散的点)
极大似然估计:
梯度下降
优化的是θ
方法:1,批量梯度下降 2,随机梯度下降 3,小批量梯度下降
多层感知机
前向传播
反向传播
从后往前,优化各层的权重w
卷积神经网络CNN
卷积(对应相乘求和)–padding(解决边界不够的问题)–stride(每次跳跃的步幅可以是1,也可以是2)–通道channel(获得更多的特征)–池化pooling(通过取小矩阵最大值、平均值等将大矩阵压缩)
循环神经网络RNN
当前信息xt,融合上一步信息x(t-1)乘以权重得到的h(t-1),把这俩各自乘以本步的权重加一起用tanh函数激活,得到ht
优化模型:GRU,只有两道门
梯度爆炸和梯度消失
原因是连乘造成的
小于1的数连续乘以100次导致结果=0 eg.(0.99)^100
大于1的数连续乘以100次导致结果无穷大
解决梯度爆炸和消失:LSTM
引入了forget门,相当于在连乘中加入了筛选机制
注意力机制
有限的注意力集中在重要的信息上,从而节省资源,快速获得最有效的信息
可以嵌入CNN和RNN使用
机器学习小方法
解决过拟合和欠拟合问题:
L1正则,L2正则 等
Dropout
Weight Decay
Batch Normalization
Layer Normalization
Early stopping
总结
机器学习的五个要素
感知机
多层感知机
卷积和循环
注意力机制
机器学习中小解决方案