bert的双向理解:本质上来讲就是高层(输入层为最底层)的每个隐藏单元能接受上一层的所有信息(并非只是左边或者右边);类似DNN神经网络,每个隐藏神经元都能接受到上一层的所有信息;双向比单向功能更加强大,因为单向是双向的子集;
bert的深度理解:深层必然比浅层要好;原理类似;深层包含着浅层;
bert的双向理解:本质上来讲就是高层(输入层为最底层)的每个隐藏单元能接受上一层的所有信息(并非只是左边或者右边);类似DNN神经网络,每个隐藏神经元都能接受到上一层的所有信息;双向比单向功能更加强大,因为单向是双向的子集;
bert的深度理解:深层必然比浅层要好;原理类似;深层包含着浅层;