论文翻译
文章平均质量分 92
安城安
用编程改变世界~人工智能,网络安全领域深耕者。用python制作工具增强编程学习互动性。电气工程软件工程双学历,电气工程硕士。
展开
-
《Grandmaster level in StarCraft II using multi-agent reinforcement learning》翻译
摘要许多现实世界的应用程序需要人工智能体在复杂环境中与其他智能体竞争和协调。作为实现这一目标的跳板,《星际争霸》领域已经成为人工智能研究的一个重要挑战,这是因为它在最困难的职业电子竞技中具有标志性和持久的地位,以及它在原始复杂性和多智能体挑战方面与现实世界的相关性。在过去的十年和无数的竞争中,最强大的智能体简化了游戏的重要方面,利用了超人的能力,或使用了手工制作的子系统。尽管有这些优势,但之前还没有一个智能体能够与顶级星际争霸玩家的整体技能相匹敌。我们选择使用一般用途的学习方法来解决《星际争霸》的挑战,这种翻译 2022-08-03 16:43:48 · 416 阅读 · 0 评论 -
《Robust and Precise Vehicle Localization based on Multi-sensor Fusionin Diverse City Scenes》翻译
车辆定位是自动驾驶的基本任务之一。由于卫星轨道和时钟误差,加上对流层和电离层延迟,全球导航卫星系统(GNSS)的单点定位精度约为10米。这些误差可以用测量的参考站的观测值来校准。基于载波相位的差分GNSS技术被称为实时运动学(RTK),可以提供厘米定位精度[1]。RTK最显著的优点是它几乎提供全天候可用性。然而,它的缺点同样很明显,它很容易受到信号堵塞,多路径,因为它依赖于精确的载波相位定位技术。直观地说,激光雷达是一种很有前途的精确定位传感器。.........翻译 2022-07-26 20:27:08 · 1092 阅读 · 0 评论 -
《Route planning method for UAV in unknown environment based on improved SAS algorithm》翻译
无人机(UAV)在未知环境下的实时目标跟踪可以看作是一个航路规划问题。针对这一问题,本文提出了一种基于改进的稀疏a*搜索(SAS)算法的三维(3D)航路规划方法。该方法改进了评价函数。去除SAS算法评估函数中的实际开销,构建任务环境中的威胁信息作为评估函数的一部分,引导无人机远离威胁区域。该方法规划的轨迹考虑了实时环境信息的更新,能够实现实时轨迹规划。在此基础上,比较了辛格模型、当前“统计”模型和交互式多模型(IMM)算法的滤波效果,最终选择当前“统计”模型作为机动目标跟踪模型。关键词。......翻译 2022-07-24 10:26:41 · 636 阅读 · 0 评论 -
UAV circumnavigating an unknown target under a GPS-deniedenvironment with range-only measurements翻译
摘要无人机(uav)的一个典型应用是情报、监视和侦察任务,其目标是通过信息获取提高态势感知能力。例如,收集目标信息的一种有效方法是部署无人机,使其以期望距离围绕目标旋转。这种无人机的运动被称为环球航行。本文的目的是设计一种控制算法,使其能够在不使用gps的环境下,仅使用距离测量来完成环球飞行任务。控制算法分两步构造。第一步是通过假设距离和距离速率测量的可用性来设计控制算法,其中关联的控制输入总是有界的。第二步是利用基于距离测量的滑模估计器得到的估计距离速率来取代实际的距离速率测量,从而进一步消除使用距离速率翻译 2022-07-23 10:06:46 · 241 阅读 · 0 评论 -
Multi-UA V Cooperative Exploringfor the Unknown Indoor EnvironmentBased on Dynamic Target Tracking翻译
在过去的几年里,无人机(UAVs)由于其较高的成本效益、灵活性和灵活性,耐久性在军事和民用领域得到了广泛的应用。由于其灵活性和低风险,无人机在探索室内环境[1]方面得到了广泛的发展。UAVs对于室内危险空间的探索有很好的应用场景,例如有毒气体泄漏的工厂,地震后危险的建筑,核辐射危险的地区。然而,无人机在没有gps的未知室内环境中进行自动导航是非常困难的。此外,单一无人机可以使用同步定位与测绘(SLAM)[2]方法探索未知环境,但会占用大量的计算时间和存储性能。......翻译 2022-07-22 14:34:16 · 885 阅读 · 0 评论 -
《Multiple UAV exploration of an unknown region》翻译
提出了一种多架无人机在模拟未知区域中导航的探测系统,该区域中存在形状、大小和初始位置未知的障碍物。无人机必须不断探索和监测该地区。uav有有限的传感器和通信范围和运动学约束。环境中可能有死胡同,可能导致无人机与障碍物相撞。由于无人机的传感器范围有限,它们无法探测到小巷是否有障碍物。由于多智能体和运动学约束的存在,无人机在选择路径时必须相互配合,否则可能会发生碰撞。无人机的物理约束和传感器约束,加上环境的不确定性,使得多架无人机对未知区域的探测成为一个难题。......翻译 2022-07-21 14:01:28 · 949 阅读 · 2 评论 -
《UAV Intelligent Coverage Navigation Based on DRL in Complex Geometrical Environments》翻译
无人机(UAV)以其机动性和灵活性成为覆盖探测任务的首选工具之一。无人机在复杂的几何环境中自主确定航迹是一项具有挑战性的工作。提出了一种基于深度强化学习的无人机智能导航方法。我们建议使用地理信息系统(GIS)作为DRL训练环境,以克服训练环境和测试环境之间的不一致性。我们创造性地以图像的形式保存了飞行路线。将基于知识的蒙特卡洛树搜索方法与局部搜索方法相结合,既能有效避免陷入局部搜索,又能保证在计算能力的限制下学习最优搜索方向。......翻译 2022-07-20 10:57:39 · 631 阅读 · 0 评论 -
《Reinforcement based mobile robot navigation in dynamic environment》翻译
针对未知动态环境下移动机器人路径规划问题,提出了一种基于q学习的新方法。q学习算法由于其简单和成熟的理论被证明能够提供可靠和高效的解,因此在解决实际问题中得到了广泛的应用,特别是在机器人领域。然而,试图利用q学习来解决移动机器人导航问题的研究人员,大多是在静态环境下进行的;他们避免在动态环境中使用它,因为这是一个有无限多个状态的更复杂的问题。如此多的状态使得对智能体的训练非常困难。本文基于状态空间的新定义,通过限制状态数,将q学习算法应用于解决动态环境下移动机器人的导航问题。.........翻译 2022-07-19 18:28:52 · 595 阅读 · 0 评论 -
《Trust Region Policy Optimization》翻译
大多数政策优化算法可以分为三大类(1)策略迭代方法,在估计当前策略下的价值函数和改进策略之间交替进行(Bertsekas,2005);(2)策略梯度方法,它使用从样本轨迹获得的预期回报(总回报)的梯度估计(Peters&Schaal,2008a)(我们稍后讨论,与策略迭代有密切联系);(3)无衍生优化方法,如交叉熵方法(CEM)和协方差矩阵自适应(CMA),它们将回报作为一个黑盒函数,以策略参数进行优化(Szita&Lörincz,2006)。......翻译 2022-07-18 18:38:15 · 399 阅读 · 0 评论 -
《Proximal Policy Optimization Algorithms》翻译 John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Rad
目录摘要一.引言二.背景:策略优化2.1策略梯度方法2.2信赖域方法三.clip替代目标四.自适应KL惩罚系数五.算法六.实验6.1替代目标比较6.2与其他连续域算法的比较6.3展示在连续领域:人形运行和转向6.4与雅达利领域的其他算法的比较七.结论 我们提出了一种用于强化学习的新策略梯度方法家族,通过与环境的交互在采样数据之间交替,并使用随机梯度上升优化“替代”目标函数。标准策略梯度方法对每个数据样本进行一次梯度更新,而我们提出了一个新的目标函数,使多个时期的小批量更新成为可能。这种新方法被翻译 2022-06-25 15:16:30 · 536 阅读 · 0 评论 -
《CONTINUOUS CONTROL WITH DEEP REINFORCEMENTLEARNING》翻译 Timothy P . Lillicrap∗, Jonathan J. Hunt∗, Al
我们将深度q学习的成功理念应用于连续行动领域。我们提出了一种基于确定性策略梯度的无模型算法,该算法可以在连续的动作空间中运行。使用相同的学习算法、网络结构和超参数,我们的算法稳健地解决了20多个模拟物理任务,包括经典问题,如cartpole摇摆,灵巧操作,腿运动和汽车驾驶。我们的算法能够找到性能与规划算法所找到的具有完全访问域的动态及其衍生的策略相竞争的策略。我们进一步证明,对于许多任务,算法可以“端到端的”学习策略:直接从原始像素输入。 人工智能领域的主要目标之一是通过未经处理的、高维的、感翻译 2022-06-25 14:30:31 · 188 阅读 · 0 评论 -
《LSTM: A Search Space Odyssey》翻译 Klaus Greff, Rupesh K. Srivastava, Jan Koutn´ık, Bas R. Steunebrink
自1995年开始,循环神经网络的长短期记忆(LSTM)架构的几个变体已经被提出。近年来,这些网络已经成为各种机器学习问题的最先进的模型。这重新引起了人们对理解典型LSTM变体的各种计算组件的作用和效用的兴趣。在本文中,我们首次在三个代表性任务上大规模分析了8种LSTM变体:语音识别、笔迹识别和复调音乐建模。采用随机搜索方法分别优化每个任务的所有LSTM变量的超参数,并使用强大的fANOVA框架评估其重要性。总之,我们总结了5400次实验运行的结果(≈15年的CPU时间),这使我们的研究成为LSTM网络上同类翻译 2022-06-24 15:20:24 · 408 阅读 · 0 评论 -
《Attention Is All Y ou Need》翻译 Ashish Vaswani Noam Shazeer Niki Parmar Jakob etc.
目录摘要一.介绍二.背景三.模型架构3.1编码器和解码器堆栈3.2注意力3.2.1按比例缩小的点积的注意力3.2.2多端注意力3.2.3注意力在模型中的应用3.3Position-wise前馈网络3.4嵌入和Softmax3.5位置编码四.为什么Self-Attention五.训练5.1训练数据和批处理5.2硬件和进度5.3最优控制器5.4调整六.结果6.1机器翻译6.2模型的变化6.3英语选区解析七.结论 主要的序列转导模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。表现最好翻译 2022-06-23 21:04:05 · 404 阅读 · 0 评论 -
《End-To-End Memory Networks》翻译 Sainbayar Sukhbaatar Arthur Szlam Jason Weston Rob Fergus
目录摘要一.介绍二.方法2.1单层2.2多层三.相关工作四.综合问答实验4.1模型的细节4.2训练细节4.3基线4.4结果五.语言建模实验5.1训练细节5.2结果六.结论和未来工作 我们引入一种神经网络,在可能较大的外部存储器上建立一个反复注意模型。该架构是记忆网络[23]的一种形式,但与该工作中的模型不同,它是端到端训练的,因此在训练期间需要的监督大大减少,使其更适用于现实环境。它还可以被视为RNNsearch[2]的扩展,以实现对每个输出符号执行多个计算步骤(跃点)的情况。该模型的灵活性允翻译 2022-06-23 09:12:30 · 154 阅读 · 2 评论 -
《Neural Turing Machines-Can neural nets learn programs?》翻译Alex Graves Greg Wayne Ivo Danihelka
目录摘要一.介绍二.基础研究2.1心理学和神经科学2.2认知科学与语言学2.3循环神经网络三.神经图灵机3.1读3.2写3.3寻址机制3.3.1关注的内容3.3.2集中的位置3.4控制器网络四.实验4.1复制4.2重复复制4.3联想回忆4.4动态字格4.5优先级排序4.6实验细节五.结论 我们通过将神经网络与外部记忆资源耦合来扩展神经网络的能力,它们可以通过注意过程与外部记忆资源相互作用。该组合系统类似于图灵机或冯诺依曼架构,但它是端到端可微的,允许它使用梯度下降有效训练。初步结果表明,神经图翻译 2022-06-22 15:30:25 · 163 阅读 · 0 评论 -
《MEMORY NETWORKS》翻译 Jason Weston, Sumit Chopra & Antoine Bordes
我们描述了一种新的学习模型,叫做记忆网络。记忆网络的推理是由推理组件和长时记忆成分组合而成的;他们学习如何共同使用这些。可以对长期记忆进行读写,目的是使用它进行预测。我们在问答(QA)的背景下研究这些模型,其中长期记忆有效地充当(动态)知识库,输出是文本回应。我们通过大规模的QA任务,以及模拟世界中生成的较小但更复杂的玩具任务来评估它们。在后者中,我们通过链接多个支持性句子来回答需要理解动词含义的问题,展示了此类模型的推理能力。 大多数机器学习模型缺乏一种简单的方法来读写(可能非常大)长期记忆翻译 2022-06-22 09:40:49 · 301 阅读 · 0 评论 -
《Long Short-Term Memory》翻译,Sepp Hochreiter, ¨urgen Schmidhuber.1997,9(8):1735-1780
目录摘要一.介绍2.1问题二.先前的工作2.1梯度下降法变量2.2时间延迟2.3时间常数2.4Ring的方法2.5Bengio et al的方法2.6卡尔曼滤波器2.7Second Order Nets2.8Simple Weight Guessing2.9Adaptive Sequence Chunkers三.常数误差反向传播3.1指数衰减的错误3.1.1传统BPTT(例如,Williams & Zipser, 1992)3.1.2《Hochreiter分析大纲》(1991,第19-21页)3.1.3直观翻译 2022-06-21 22:58:45 · 1069 阅读 · 0 评论