学习周报20191124 | BART,紧密度分析

【学习周报】

总结自己的学习和遇到的好材料。

往期回顾:

BART

额,上周刚串讲完语言模型(NLP.TM[21] | 语言模型发展思路),这周又有新的内容:BART,来自facebook,论文在这里:

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

论文薄薄几页,倒是不长,内容上有一定创新,但我感觉出发点是刷榜,意义其实没有想象的那么大吧,但是处理思路依旧可以参考一下。

  • decoder的每个层对encoder最终隐藏层额外执行 cross-attention。

  • 预测前增加了前馈网络。(根据论文,这点和上面一点总共导致BART比BERT多出约10%的参数)

  • 使用更多种形式对文本进行破坏,masking、rotation等等。

机器之心对该文章进行了一定的讲解,个人感觉基本谈到了,虽然推荐大家优先看论文,但这里还是把机器之心的文章摆出来:

https://zhuanlan.zhihu.com/p/90173832

紧密度分析

这是一个偏向上游的工作,而且其实颇为重要,紧密度分析主要是为了解决分词错误导致的词义偏移现象,“蔡英文”的分词是“蔡 英文”,“曾舜晞”的分词是“曾 舜 晞”,这些分词错误会在下游的embedding等阶段产生歧义,甚至可能导致任务出现bad case,紧密度分析就是因为这种问题而出现的,在下游进行一定的干预,当然的,还是识别一些短语。

最近实际在啃的是一篇学位论文(学位论文(尤其是写的好的学位论文)的好处是会把具体知识点相关的内容都给铺开讲清楚),感觉对紧密度分析的一个重要方法讲的很清楚,这虽然是个基于统计、无监督的方法,但其实在实际应用中还是颇为重要,能结合语境等,个人非常喜欢:

孔繁硕2014- 哈尔滨工业大学:软件工程,基于重要度与紧密度的搜索串核心词提取系统。

另外,紧密度分析,个人认为吧,其实还可以和新词发现一起来整,毕竟分词错误的很大一部分原因来自于新词不认识,新词发现个人比较推荐左右熵的方式。

https://www.jianshu.com/p/e9313fd692ef

没错,都是基于统计的方法,我发现越是偏向上游的问题,越喜欢用统计和信息熵的方法,上游的问题要适配很多场景,而且很多场景其实并没有很好的标注数据(有钱有人那不是每个组织都能办到的),但是由于语料相比之下还是比较可获取,所以统计的方法还是非常有用的。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值