直播预告: NeurlPS 2020 专场六| AI TIME PhD

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

12月29日晚8:00-9:00

AI TIME特别邀请了2位优秀的讲者跟大家共同开启NeurIPS 2020专场六!

哔哩哔哩直播通道

扫码关注AITIME哔哩哔哩官方账号

观看直播

链接:https://live.bilibili.com/21813994

★ 邀请嘉宾 ★

岳煜光:本科毕业于复旦大学数学系,现为德州大学奥斯汀分校统计系博士,导师为周名远。他的主要研究兴趣是贝叶斯统计和强化学习,以及其他与统计相关的强化学习方向如模仿学习。

报告题目:

通过隐式分布提升的分布式深度强化学习

摘要:

为了提高基于策略梯度的强化学习算法的样本效率,我们提出了基于两个深度生成器网络(DGN)和一个更加灵活的半隐式actor(SIA)的隐分布actor-critic 算法(IDAC)。我们采用分布式强化学习观点,并使用与状态动作相关的隐式分布对其建模,该隐含分布由将状态动作对和随机噪声作为其输入的DGN近似。此外,我们使用SIA来提供半隐式策略分布,该策略分布将策略参数与不受分析密度函数约束的可重新参数化分布混合在一起。这样,该策略的边际分布是隐式的,提供了对诸如协方差结构和偏度之类的复杂属性建模的潜力,但仍可以进行熵的估计计算。我们将这些功能与off-policy算法框架结合在一起,以解决连续动作空间中的问题,并将IDAC与其他标准算法在Openai Gym里进行比较,我们观察到IDAC在大多数任务中都优于这些基准。

郭一诺:北京大学计算语言所硕士(即将毕业),主要关注语言解析,自然语言生成,组合泛化等话题。目前以第一作者的身份在AAAI, Neurips等会议发表多篇论文。

报告题目:

HPD:一种用于解决语言中组合泛化问题的层次化偏序解码模型

摘要:

我们将人类语言理解形式化为结构预测任务,其中输出是一个偏序集合。现有的编解码器结构不能正确考虑语义的偏序特性,从而有较弱的组合泛化能力。在本文中,我们提出了一种层次化偏序解码模型来解决语言中的组合泛化问题。具体来说:(1)我们将语言的部分置换不变的特点融入模型结构中,从而避免模型过拟合于训练数据中的顺序偏置信息;(2)层次化机制使得模型能够更好的捕捉偏序集的高层结构特点。我们在CFQ数据集上评估我们提出的模型。CFQ是一个大规模的,真实的自然语言问答数据集,专门用于评估模型的组合泛化能力。实验结果表明我们的模型显著优于现有的解码器。

直播结束后我们会邀请讲者在微信群中与大家答疑交流,请添加“AI TIME小助手(微信号:AITIME_HY)”,回复“nips”,将拉您进“NeurIPS 2020 交流群”!

AI TIME微信小助手

主       办:AI TIME 、AMiner

联合支持:智源研究院

合作伙伴:智谱·AI、中国工程院知领直播、学堂在线、CSDN、学术头条、biendata、大数据文摘、数据派、 Ever链动、机器学习算法与自然语言处理

AMiner是学术搜索和社会网络挖掘研究的重要数据和实验平台,由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万。        

1)AMiner平台:https://www.aminer.cn

2)会议专题页面:https://www.aminer.cn/conf/emnlp2020

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值