AMiner会议论文推荐第三十三期

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。


IJCAI 2020 论文推荐

Multi-Scale Group Transformer for Long Sequence Modeling in Speech Separation

论文链接https://www.aminer.cn/pub/5ef96b048806af6ef2772151/?conf=ijcai2020

推荐理由:本文将Transformer引入到单通道语音分离的时域方法中。Transformer由于其强大的序列建模能力,具有提升语音分离性能的潜力。然而,它的计算复杂度会随着序列长度的增长而呈四倍增长,使其在很大程度上无法应用于语音应用。为了解决该问题,作者提出了一种新型Transformer变体,命名为多尺度群组Transformer(multi-scale group Transformer,MSGT)。该模型的关键思想是群体自关注,保留了Transform捕捉长期依赖性的能力,能够大大降低复杂度、实现多尺度融合。作者实现了两个复杂度不同的MSGT版本,并将它们应用于一种名为Conv-TasNet的著名时域语音分离方法,在实验中其性能与SOTA方法相当。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Solving Hard AI Planning Instances Using Curriculum-Driven Deep Reinforcement Learning

论文链接https://www.aminer.cn/pub/5eda19d991e01187f5d6db49/?conf=ijcai2020

推荐理由:尽管目前研究在一般AI规划方面取得了重大进展,但某些领域AI规划系统仍无法企及。Sokoban是一个PSPACE完成的规划任务,代表了当前AI规划最难的领域之一。由于在硬实例上的搜索复杂度呈指数级,即使是特定领域的专门搜索方法也无法成功。作者的方法基于深度强化学习,并辅以课程驱动的方法,是第一个能够在训练后一天内解决硬实例的方法。与之前的工作相比,该方法使用精心设计的剪枝技术,能够自动发现领域结构。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
RECPARSER: A Recursive Semantic Parsing Framework for Text-to-SQL Task

论文链接https://www.aminer.cn/pub/5ef96b048806af6ef27721f0/?conf=ijcai2020

推荐理由:由于搜索空间较大,神经语义解析器通常无法将长而复杂的语句解析成嵌套的SQL查询。在本文中,作者提出了一种名为RECPARSER的新型递归语义解析框架来逐层生成嵌套SQL查询。它将复杂的嵌套SQL查询生成问题分解为多个递进的非嵌套SQL查询生成问题。此外,该工作还提出了一个新颖的问题分解器模块,鼓励RECPARSER在预测不同层级的SQL查询时关注语句的不同成分。在Spider数据集上的实验表明,该方法在预测嵌套的SQL查询方面比之前的方法更有效。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AAAI 2021 论文推荐

Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection

论文链接https://www.aminer.cn/pub/5fca1a0191e011654d99e811/?conf=aaai2021

推荐理由:在稀疏实例标注的情况下,对象检测器的性能往往不能令人满意。现有的稀疏注解对象检测方法为了减少假负值的干扰,要么重新加权硬负样本的损失,要么将未标注的实例转化为忽略区域。作者认为这些策略不够完善,因为它们最多只能缓解缺失标注造成的负效应。在本文中,作者提出了用于稀疏标注的对象检测的Co-mining,其中一个连体网络的两个分支互相预测伪标签集。为了增强多视图学习,更好地挖掘未标注的实例,该模型将原始图像和相应的增强图像分别作为连体网络两个分支的输入。Co-mining可以作为一种通用的训练机制,应用于大多数现代物体检测器。在MS COCO数据集上进行的实验表明,该模型在相同的稀疏标注环境下该超越了现有的其他方法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Commission Fee is not Enough: A Hierarchical Reinforced Framework for Portfolio Management

论文链接https://www.aminer.cn/pub/5fe46b7891e01174e2139115/?conf=aaai2021

推荐理由:通过强化学习进行的投资组合管理是目前金融科技研究的热点,该问题探索了如何利用试错将基金长期优化地重新分配到不同的金融资产中。现有的方法通常假设每次重新分配可以立即完成,忽略了作为交易成本一部分的价格滑落。为了解决这些问题,作者提出了一种用于投资组合管理的分层强化股票交易系统(hierarchical reinforced stock trading system for portfolio management ,HRPM)。具体来说,该工作将交易过程分解为投资组合管理对交易执行的层次结构,并训练相应的策略。高层策略以较低的频率给出组合权重,以实现长期利润的最大化,并调用低层策略在短时间内以较高的频率卖出或买入相应的股票,以最小化交易成本。为了提高数据效率,作者通过预训练方案和迭代训练方案训练两级策略。大量实验结果表明,HRPM较目前最先进的方法实现了显著的改进。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Gated Linear Networks

论文链接https://www.aminer.cn/pub/5d9718543a55ac1975e3c1cf/gated-linear-networks?conf=aaai2021

推荐理由:本文介绍了一系列免反向传播的神经架构,门控线性网络(Gated Linear Networks,GLNs),本类型架构非常适合样本效率优先的在线学习应用。上述架构出色的经验性能在数据压缩界早已为人所知,但理论上很难解释它们为何如此高效。作者称,它们与其他神经系统的区别在于其信用分配机制的分布式和局部性,即每个神经元直接预测目标,并有自己的一组硬门权重,能够通过在线凸优化进行局部调整。通过提供解释、泛化和后续的理论分析,该工作证明了足够大的GLNs具有很强的普适性:它们不仅能够对任何紧凑支持的连续密度函数进行任意精度的建模,而且在数据足够的情况下,任何选择的无悔在线凸优化技术都能够收敛到正确的解。同时,作者展示了一系列在既定机器学习基准上的单通学习结果,这些结果较通用批处理学习技术获得的结果更具竞争力。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ICLR 2021 论文推荐

Learning to Reach Goals via Iterated Supervised Learning

论文链接: https://www.aminer.cn/pub/600832449e795ed227f530f6/?conf=iclr2021

推荐理由:该论文入选ICLR oral。当从稀疏的奖励中学习目标达成行为时,目前的强化学习(reinforcement learning ,RL)算法有时会比较脆弱。该论文研究了使用模仿学习从头开始获取目标达成策略的RL算法,该方法不需要专家示范或价值函数。其中,作者提出了一个简单的算法,代理不断地重新描述和模仿它产生的轨迹,以逐步从头开始学习达到目标的行为。代理每一次迭代都会使用最新的策略来收集新的轨迹,并在实际达成的目标下,最大化沿着这些轨迹的行为的可能性以改进策略。该研究证明了这种迭代监督学习过程能够优化RL目标的边界,推导出学习策略的性能边界,并在几个基准任务中实证了该方法能够改进当前RL算法的目标达成性能和鲁棒性。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments

论文链接: https://www.aminer.cn/pub/600833a09e795ed227f531a3/?conf=iclr2021
推荐理由:该论文入选ICLR oral。每个生物体都在与破坏性的环境力量作斗争,以开辟和维持一个有序的小天地。作者认为这种为实现和维护秩序而进行的斗争为人工代理中有用行为的出现提供了一个原则。该工作将这一思想正式化为一种无监督的强化学习方法,称为惊喜最小化强化学习(surprise minimizing reinforcement learning,SMiRL)。SMiRL交替学习一个密度模型来评估刺激的惊喜,并改进策略以寻求更可预测的刺激。该策略寻求稳定和可重复的情况,以抵消环境中普遍存在的熵源。作者证明该方法能够成功地玩俄罗斯方块、毁灭战士,控制一个人形机器人避免摔倒,并在没有任何任务特定奖励监督的情况下导航以逃避迷宫中的敌人。同时,作者进一步证明了SMiRL可以与标准任务奖励一起使用,以加速奖励驱动的学习。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Self-training for Few-shot Transfer Across Extreme Task Differences

论文链接: https://www.aminer.cn/pub/5f896fa591e01149071e45df/?conf=iclr2021

推荐理由:该工作入选ICLR oral。目前,所有的少数镜头学习技术都必须在一个大型的、有标签的 "基础数据集 "上进行预训练。在问题域中,如果未这类大型标记数据集进行预训练(例如,X射线图像),就必须在不同的 "源 "问题域(例如,ImageNet)中进行预训练,而它们与目标任务往往有很大的不同。在源任务和目标任务之间存在极端差异的情况下,传统的少数镜头和转移学习技术效果较差。在本文中,作者提出了一个简单有效的方案来解决这种极端的领域差距:在目标领域的未标记数据上自训练源域表示。该工作表明,在一个具有挑战性的多域基准上,上述方法能够将目标域的单次性能提高平均2.9分。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

订阅了解更多论文信息,定制您的个人科研动态信息流https://www.aminer.cn/user/notification?f=mt

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值