【学习周报】
总结自己的学习和遇到的好材料。
往期回顾:
BART
额,上周刚串讲完语言模型(NLP.TM[21] | 语言模型发展思路),这周又有新的内容:BART,来自facebook,论文在这里:
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
论文薄薄几页,倒是不长,内容上有一定创新,但我感觉出发点是刷榜,意义其实没有想象的那么大吧,但是处理思路依旧可以参考一下。
decoder的每个层对encoder最终隐藏层额外执行 cross-attention。
预测前增加了前馈网络。(根据论文,这点和上面一点总共导致BART比BERT多出约10%的参数)
使用更多种形式对文本进行破坏,masking、rotation等等。
机器之心对该文章进行了一定的讲解,个人感觉基本谈到了,虽然推荐大家优先看论文,但这里还是把机器之心的文章摆出来:
https://zhuanlan.zhihu.com/p/90173832
紧密度分析
这是一个偏向上游的工作,而且其实颇为重要,紧密度分析主要是为了解决分词错误导致的词义偏移现象,“蔡英文”的分词是“蔡 英文”,“曾舜晞”的分词是“曾 舜 晞”,这些分词错误会在下游的embedding等阶段产生歧义,甚至可能导致任务出现bad case,紧密度分析就是因为这种问题而出现的,在下游进行一定的干预,当然的,还是识别一些短语。
最近实际在啃的是一篇学位论文(学位论文(尤其是写的好的学位论文)的好处是会把具体知识点相关的内容都给铺开讲清楚),感觉对紧密度分析的一个重要方法讲的很清楚,这虽然是个基于统计、无监督的方法,但其实在实际应用中还是颇为重要,能结合语境等,个人非常喜欢:
孔繁硕2014- 哈尔滨工业大学:软件工程,基于重要度与紧密度的搜索串核心词提取系统。
另外,紧密度分析,个人认为吧,其实还可以和新词发现一起来整,毕竟分词错误的很大一部分原因来自于新词不认识,新词发现个人比较推荐左右熵的方式。
https://www.jianshu.com/p/e9313fd692ef
没错,都是基于统计的方法,我发现越是偏向上游的问题,越喜欢用统计和信息熵的方法,上游的问题要适配很多场景,而且很多场景其实并没有很好的标注数据(有钱有人那不是每个组织都能办到的),但是由于语料相比之下还是比较可获取,所以统计的方法还是非常有用的。