回归 考了均方损失误差 w和b的偏导数形式 w和b如何更新自适应梯度下降比原梯度下降好在哪?它的公式Lstm cell结构 画至少3个cell相连计算 矩阵计算sigmoid函数Transformer架构图 transformer比cnn的优势基于cnn的文本分类的结构图