交叉熵损失函数,最小就是,如果分布完全一样那就是0,这个就是针对分类的专门函数
线性回归和逻辑回归的梯度更新公式是一模一样的
逻辑回归如果用最小二乘的方式求损失函数,梯度更新的时候会导致出现很多0
梯度变化不明显,不容易迭代判断得到最优解
判别模型的效果是要比生成式的模型效果要好,生成式是假设服从某个分布,跟数据的相关性更弱一些。
生成式模型有自己的分布假设需要更少的数据,对数据的噪声不敏感些,把整个函数拆成两项,可以来自不同的来源,语音辨识,语言和声音信号的融合。
多分类同样可以假设服从高斯分布推到出来,让大的更大,小的更小。用多维度的坐标进行分类,不用1,2,3放在类别的远近出现干扰。
线性函数,针对不能线性可分的时候,不好处理
通过转换函数,变成线性可分。
通过多个逻辑回归串起来实现转换
多个线性函数串起来实现非线性数据的分类,就是所谓的神经元进入深度学习。
本质上深度学习只是做了自动特征提取的工作而已,让线性不可分的特征变得线性可分,讨论还是之前的套路。
https://aistudio.baidu.com/aistudio/education/group/info/1978