意义:
- 首次使用LSTM用于中文分词【之前的方法大多基于局部上下文对标注进行预测,并未能很好使用长距离信息,详情看后续阐述】
- 调研了多种在LSTM中的dropout的应用 【现在去看感觉这篇文章工作意义不大】
Previous Methods
- 前馈神经网络分词:把上下文进行concate后,经由线性分类器标注
模型
- LSTM-1:使用单层LSTM
- LSTM-2:使用双层LSTM
- LSTM-3:单层LSTM,LSTM的输出层,concat一个上下文窗口预测该位置标注
- LSTM-4:双层LSTM,LSTM的输出层,concat一个上下文窗口预测该位置标注
PS:模型的输入仍是concate后一个窗口后的向量作为LSTM单步输入
Trick
- 优化方法:max-margin
其基本思想是,只要正确分类,便不对模型参数进行更新,【避免某些过拟合的问题】
类似感知机的方法进行梯度更新:loss为错误标注个数 + subgradient【计算梯度方向】+ AdaGrad
- Dropout:对LSTM的输入进行Dropout
实验效果:
- dropout rate的影响:0.2的效果较好【大了会underfit】
- LSTM-1效果最好【有点反直觉】
PS:Context Length的含义为:(左边Context数,右边Context数)的二元组
- 模型与其他结果对比: