soft attention/hard attention soft attention输出注意力分布的概率值,hard attention 输出onehot向量, soft的优势> hard 知识蒸馏(knowledge distill)和迁移学习