日常充电是必须的,每天进步一点点,下面是从日常关注的博主啦公众号啦看过的一些论文,分享分享!!
https://github.com/km1994/nlp_paper_study
一些顶会AAAI、ICLR、CVPR、ACL、ICML、SIGIR、KDD、ECCV、EMNLP、NeurIPS以及IJCAI,都是学习,提高,淘金的宝藏
(1)预训练模型的
《Self-training Improves Pre-training for Natural Language Understanding》
原文:https://arxiv.org/pdf/2010.02194.pdf
更详细的解析:https://zhuanlan.zhihu.com/p/268770394?utm_source=wechat_session&utm_medium=social&s_r=0
以bert为代表的Pretrain预训练大放异彩,self-train自训练就多少有点黯然失色。
两者区别
改论文将两则进行了结合,先用一个pre-train模型去在少量标签数据上面进行train得到teacher模型,然后再用其给大量无标注数据进行打标,得到大量伪标注数据,依次训练student模型,依次为最终上线模型。注意看其区别:
和传统自训练的区别是 :在训练teacher阶段是用了一些pretrain 模型(例如论文中用了roberta)热启的,即融合了pretrain思想
和bert代表的预训练模型区别是 :bert利用大量无标签数据在前,即先预训练后用小量标签数据,这里是用大量无标签数据在后,即先用小标签数据训练,然后对大量无标签打标,以此进行有监督训练student
论文提出的总体框架
比较吸引一点的还有step2:其不是一股脑的用所有数据,而是抽取和当前领域比较相近的语料,方法就是通过句子编码得到任务编码做余弦相似度。
这里就挑一个实验结果来看看
基线是robera,icp是在step2抽取出来的大量领域内的数据集D上面进行预训练的方法,ST是本文的提出的方法
可以看到icp还不如原来的基线呢,说明没有伪标注数据,单纯的预训练不能很好地实现领域知识迁移,还要借助标注数据。
更多细节看论文吧
《Rethinking the Value of Labels for Improving Class-Imbalanced Learning》
利用“半监督”或“自监督学习”方式来处理长尾问题(类别不均衡),这里说的半监督和自监督方法并没有什么创新点,都是以前的方法,其主要贡献就是通过实验验证了一个结论:两种方式对处理类别不均衡有效果
半监督:先用监督数据训练一个base模型,然后用其对大量无标签数据打伪标签,用两部分数据重新训练
自监督:先用有标签数据自监督预训练自己的模型(不用标签),在进行有监督训练
两种方式都能提高效果,但是半监督有几个问题:
(1)未标签数据和标签数据要有相关性,否则会降低效果
(2)无标签数据不能过于不平衡
(2)实体关系抽取
《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》
直接目前(2020.11.6)关系抽取sota结果。
论文:https://arxiv.org/pdf/2010.12812.pdf
主要就是再次显示了pipeline的强大。先实体抽取再关系抽取。
实体抽取:基于的是span思想,预测所有span结果 其参考论文:https://arxiv.org/pdf/1707.07045.pdf,该论文中文解析:https://blog.csdn.net/weixin_44912159/article/details/106276874
关系抽取:这里比较新颖,主要就是在实体左右加上其实体类型标志,预测关系的时候是用实体pair的左面标志(实体开始标志)进行concatenate,然后softmax
,因为其每两两实体对预测关系,所以时间复杂度很大,为此提出了上图中c方案,文本过一次网络就可以啦。
《TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking》
论文:https://arxiv.org/abs/2010.13415
github:https://github.com/131250208/TPlinker-joint-extraction
实体关系联合抽取,在联合抽取的过程中主要会设计到关系重叠的问题,当然即使pipeline的方式,也会存在实体标注重叠的问题,本篇论文使用矩阵巧妙的进行了标注,而且是联合抽取
(4)CTR模型
阿里CTR三部曲:
《Deep Interest Network for Click-Through Rate Prediction》
《Deep Interest Evolution Network for Click-Through Rate Prediction》
论文:https://arxiv.org/pdf/1809.03672.pdf
github:https://github.com/mouna99/dien/tree/1f314d16aa1700ee02777e6163fb8ca94e3d2810
关于该部分笔者也对其代码进行了部分解读,感兴趣的可以看:
https://blog.csdn.net/weixin_42001089/article/details/109592630
加了两个GRU网络
一个是兴趣提取层(其中加了辅助的losss),一个是兴趣变化层(其中兴趣变化层中融合attention)
《Deep Session Interest Network for Click-Through Rate Prediction》
改组最新成果:
https://zhuanlan.zhihu.com/p/287898562?utm_source=wechat_session&utm_medium=social&s_r=0
下面这篇是京东的CTR模型(2020.11.7 效果好)
《Kalman Filtering Attention for User Behavior Modeling in CTR Prediction》
论文:https://arxiv.org/pdf/2010.00985.pdf
该模型主要就是用高斯分布对过去行为序列建模,就是对上面图片的user behavior sequence建模求解出兴趣偏好
我猜开始的灵感来源就是要对这部分通过数学的一些分布进行建模,最长想到的就是高斯分布,然后用后验概率可以求解。
那么历史的观察序列可以作为后验概率的观察样本
(5) 图谱推荐
(2)https://hub.baai.ac.cn/view/3931
(6)推荐
6.1 网易云
6.2阿里文娱深度语义搜索
https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247512107&idx=2&sn=ce7ce209d594b0574518e5b62a60998a&chksm=fbd70247cca08b5190e1b06ed87f036fc71c17bdda40fb80cbe69420ac7fe22f4eda2c554398&mpshare=1&scene=1&srcid=1117tkg9ZjNnOzP6FQpafqyo&sharer_sharetime=1605544486501&sharer_shareid=76f523e1337dd36d603ad65850ce4435&key=450159c030237e026f039a5c78783c284adae71125c9d3b548af02f6f1528db7cb662b99eec174798b45f0e7fb38d72171c9376e9b3e324db00e415fbcadc5372b41eeb37fb221ea92ce31378d9d3e089211ad4a7f8c8026e86bf4aba1ef33133ca257e76d082bbfe94614a8efcc03a761a2680dd69ec1e19c29563aed5a8446&ascene=1&uin=MjU3MjU4OTIxNw%3D%3D&devicetype=Windows+10+x64&version=6300002f&lang=zh_CN&exportkey=A9uYlRRjCn8qkWKxbXsrvhk%3D&pass_ticket=TK1HfxQpbmeF68wPLP82CpVtrZtbi4J48XaXPejaG2kohz90rsk08YUWfo%2BDt7wz&wx_header=0
(6) 多模态模型
(7)开放知识发现阅读清单
https://github.com/thuiar/OKD-Reading-List
(8)元学习的理解
https://mp.weixin.qq.com/s/fN2diN5vFEr8GC-cmmRIwg
https://mp.weixin.qq.com/s/YmzcSi4MIZnmEe6LaFeg1Q