AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
必读论文:https://www.aminer.cn/topic
论文集地址:https://www.aminer.cn/topic/603de59a92c7f9be21b057f3
Constrained RL的主要思路就是把安全转化为约束,通过改变优化准则达到安全的目的。挑战有2点:1. 求解速度快,最好是一阶优化;2. 对训练的严格程度:不要求训练过程,训练后得到符合约束的策略;训练期间尽可能少的违反约束,训练期间违反约束被按一定概率严格控制甚至不违反。
该论文集共收录25篇论文,引用最多的论文为Constrained Policy Optimization,引用数是208。
AMiner,一个具有认知智能的学术搜索引擎:https://www.aminer.cn
#AMiner# #论文#