10:00-17:00 transformer中的两种mask: 第一种是为了padding,使padding token的softmax概率接近0 第二种是为了使预测不被已知信息干扰(下三角) 今天学习效率很低