学习周报20191124 | BART，紧密度分析

最新推荐文章于 2024-06-10 09:46:38 发布

机智的叉烧

最新推荐文章于 2024-06-10 09:46:38 发布

阅读量539

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_25854831/article/details/103231871

版权

【学习周报】

总结自己的学习和遇到的好材料。

往期回顾：

BART

额，上周刚串讲完语言模型（NLP.TM[21] | 语言模型发展思路），这周又有新的内容：BART，来自facebook，论文在这里：

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

论文薄薄几页，倒是不长，内容上有一定创新，但我感觉出发点是刷榜，意义其实没有想象的那么大吧，但是处理思路依旧可以参考一下。

decoder的每个层对encoder最终隐藏层额外执行 cross-attention。
预测前增加了前馈网络。（根据论文，这点和上面一点总共导致BART比BERT多出约10%的参数）
使用更多种形式对文本进行破坏，masking、rotation等等。

机器之心对该文章进行了一定的讲解，个人感觉基本谈到了，虽然推荐大家优先看论文，但这里还是把机器之心的文章摆出来：

https://zhuanlan.zhihu.com/p/90173832

紧密度分析

这是一个偏向上游的工作，而且其实颇为重要，紧密度分析主要是为了解决分词错误导致的词义偏移现象，“蔡英文”的分词是“蔡英文”，“曾舜晞”的分词是“曾舜晞”，这些分词错误会在下游的embedding等阶段产生歧义，甚至可能导致任务出现bad case，紧密度分析就是因为这种问题而出现的，在下游进行一定的干预，当然的，还是识别一些短语。

最近实际在啃的是一篇学位论文（学位论文（尤其是写的好的学位论文）的好处是会把具体知识点相关的内容都给铺开讲清楚），感觉对紧密度分析的一个重要方法讲的很清楚，这虽然是个基于统计、无监督的方法，但其实在实际应用中还是颇为重要，能结合语境等，个人非常喜欢：

孔繁硕2014- 哈尔滨工业大学:软件工程，基于重要度与紧密度的搜索串核心词提取系统。

另外，紧密度分析，个人认为吧，其实还可以和新词发现一起来整，毕竟分词错误的很大一部分原因来自于新词不认识，新词发现个人比较推荐左右熵的方式。

https://www.jianshu.com/p/e9313fd692ef

没错，都是基于统计的方法，我发现越是偏向上游的问题，越喜欢用统计和信息熵的方法，上游的问题要适配很多场景，而且很多场景其实并没有很好的标注数据（有钱有人那不是每个组织都能办到的），但是由于语料相比之下还是比较可获取，所以统计的方法还是非常有用的。

机智的叉烧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。