信达雅原则
觉得还是要复现这篇文章,上次复现无果,半路放弃了。但是,还是觉得,这篇文章的价值是可以的,因为,可能要用到,觉得还是要做好复现。。。。
论文题目:A Unified Generative Framework for Various NER Subtasks
论文代码和论文中的描述,有矛盾部分。
之前问到的一些问题:
表示上——非常感谢你关注到我们的工作。这里实际代码和论文的编码方式有点出入,有出入的地方在于,在实际代码中,label实际上占据的是[2, n_label+2]的范围,pointer是(n_label+2, n_token + n_label+2]。这里有这种出入的原因是由于,在代码中如果使用pointer在前面,由于每句话长度不一致【但是label个数是一定的】,会导致每一句话处理的时候很繁琐;而在文章中如果直接写label在前面呢,又必须在pointer描述中减去n_label,导致公式看起来更复杂了。这两者本质上是等价的。
实体测评上——我们是直接根据target_span中的数字做的计算【因为这些index数字加最后一位的entity类别已经可以唯一确定一个entity了】,没有将其转换回text entity进行评测。
文章建模方法
输入序列:X=[x1,…xn],
输出序列:Y=[s11,e11,s12,e12,…t1,…tk]
输出序列中,Y是由多个实体构成的,每个实体又是