batch normalization没有听懂
life long learning:不明白计算task 1需要过去的资料(看李宏毅之前录的反向传播 或者60分钟了解pytorch,计算gradient是需要用数据集算出loss,再根据loss函数求导,所以需要用到过去的资料即数据集)
对loss函数求导后要代入预测值和label值
《反向传播——通俗易懂》
https://blog.csdn.net/weixin_38347387/article/details/82936585?utm_source=app&app_version=4.12.0&code=app_1562916241&uLinkId=usr1mkqgl919blen