浅唱丶-CSDN博客

原创强化学习论文笔记：Real-Time Reinforcement Learning

Real-time Reinforcement Learning简介NeurIPS 2019上蒙特利尔大学的工作在连续时间的决策任务中，环境在动作选择时是实时变化的。作者定义了实时马尔可夫决策过程（RTMDP）并提出强化学习算法Real-Time Actor-Critic（RTAC），相比于传统方法能够更好地学习实时环境下的最优策略问题存在动作选择延迟的连续时间马尔可夫环境下的实时决策问题方法智能体与环境的两种交互方式回合交互：串行，决...

2020-07-31 18:58:01 1649

原创 Solving Rubik's Cube with a Robot Hand：OpenAI训练机械手臂解魔方

说起《终结者》系列电影，我想最令人印象深刻的就是阿诺.施瓦辛格所饰演的T-800机器人，他那像人的手一样灵活的机械骨骼手臂可以说是相当的深入人心。继会玩DOTA的OpenAI Five后，人工智能研究组织OpenAI近日再次给了我们一个惊喜：他们的机器人已经学会使用一只机械手臂复原经典的三阶魔方。机械手臂是机械人技术领域中得到最广泛实际应用的自动化机械装置，在工业制造、医学治疗、娱乐服务、军事...

2020-04-11 17:32:08 1627

原创强化学习论文笔记：Soft Actor Critic算法

无模型(model-free)的深度强化学习算法已经在一系列具有挑战性的决策制定和控制任务中得到了证明。然而，相比于基于模型(model-based)的算法，无模型算法通常面临两大挑战:非常高的样本复杂性和脆弱的收敛特性，这需要细致的超参数调优。这两个挑战严重限制了这些方法在复杂的现实世界领域的适用性。在这个框架中，参与者的目标是最大化期望的回报，同时最大化熵。也就是说，在完成任务的同时尽可能随机...

2020-04-10 20:13:41 4374

原创 AlphaGo是如何战胜人类的？这些机器学习知识不能不懂

机器学习是人工智能领域的热门研究话题。不论是在围棋上击败人类的AlphaGo，还是人脸识别系统，机器学习在诸多领域都取得了令人瞩目的成就。总的来说，机器学习让就是计算机具有像人一样的学习和思考能力的技术。具体方法就是从已知数据中获得规律，并利用规律对未知数据进行预测或理解。本文将以通俗易懂的方式解释机器学习中的术语，旨在为广大同学打下基础、培养兴趣，为以后的深入学习做准备。数据数据是机器学习的...

2019-08-01 10:25:33 863

原创 OpenAI Five：人工智能进化的新方向

近十年来，人工智能的研究人员们一直在尝试将游戏用作测试和评估人工智能系统的方法。得益于算法的发展和计算能力的增长，研究人员们开始寻求攻克越来越复杂的游戏，这些游戏拥有可以用来解决科学和现实问题所需的诸多要素。从最初的Atari游戏（乒乓球、打砖块），到后来的围棋和象棋，再到即时战略游戏星际争霸系列，人类正在一步一步地向通用人工智能迈进。

2019-08-01 10:21:47 2455

原创探秘AlphaStar:星际争霸人工智能

（声明：此文已发表于《爱上机器人》2019年2月刊，转载请联系作者）前言近十年来，人工智能的研究人员们一直在尝试将游戏用作测试和评估人工智能系统的方法。得益于算法的发展和计算能力的增长，研究人员们开始寻求攻克越来越复杂的游戏，这些游戏拥有可以用来解决科学和现实问题所需的诸多要素。从最初的Atari游戏（乒乓球、打砖块），到后来的围棋和象棋，再到即时战略游戏星...

2019-04-15 21:15:04 6987 6

原创星际争霸2人工智能初探——SC2LE研究环境搭建

##前言2017年5月28日，一场围棋界的世纪大战落下帷幕，人类棋手柯洁以0：3的比分负于人工智能AlphaGO。至此，人工智能攻破了千百年来人类智慧的最后防线——被称为”千古无重局“的围棋。标志着人工智能已迈向一个新的高度。同年8月10号，AlphaGO的创造者DeepMind公司宣布正式与暴雪公司展开合作，使用暴雪开发的传统电子竞技项目星际争霸2 作为辅助人工智能学习提升的手段，并联合...

2018-09-27 21:02:58 2889 2

原创 JavaMail使用心得

JavaMail，顾名思义，提供给开发者处理电子邮件相关的编程接口。它是Sun发布的用来处理email的API。它可以方便地执行一些常用的邮件传输。我们可以基于JavaMail开发出类似于Microsoft Outlook的应用程序。在开发Java Web应用时经常用到它，注册帐号时的邮箱验证、通过邮箱找回密码、以及一些需要重新认证用户身份的操作都要通过发送邮件到用户邮箱中。虽然JavaMail是

2017-09-17 19:24:47 1769

原创星际争霸：登录韩服等其他国家服务器

前言万众瞩目的星际争霸：重制版已于几周前隆重上线。除了原汁原味地保留了星际争霸1的游戏性外，暴雪的美工团队将原作中的单位和地图进行了尽可能细致的美化。重制版还支持缩放功能，你如今可以放大来细数刺蛇背后的针刺，重新渲染的地形也让画面表现更有深度和场景感，打开动态光照之后，白球的攻击特效可以在附近单位身上映出光影。此外，本次《星际争霸》高清重制版我们可以在游戏设置中选择简体中文与语音（配音与繁体台配有所

2017-09-15 20:15:06 19691 3

原创学习笔记：阿里云ECS部署web项目的常见问题及解决方法

阿里云ECS部署web项目的常见问题及解决方法云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。本次使用的ECS配置请参考云翼计划，操作系统镜像 CentOS 7.3 64位(更换系统盘的步骤和注意事项)一、使用PuTTY通过SSH连接到ECS时提示Disconnected通过

2017-09-10 17:33:08 882

国科大矩阵分析与应用课件.zip

本课程为计算机软件与理论和相关专业研究生的专业普及课。本课程主要内容为以矩阵为工具的处理大量有限空间形式与数量关系的方法学。包括：矩阵分析的基本理论，矩阵分解的基本技术和特殊矩阵的性质。通过本课程的学习，希望学生能掌握利用矩阵解决问题的基本理论和基本技巧，了解并熟悉矩阵分解相关理论和算法，为利用矩阵分析的技术解决问题和从事专业研究打下基础。

2019-08-01

国科大大数据系统与大规模数据分析18-19春季.rar

随着互联网、社交网络、云计算、物联网、移动计算、大规模科学探测与计算分析等的发展，各种新的数据密集型应用如雨后春笋般涌现。这些新的应用通常具有数据量巨大、数据获取速度更新速度快和/或数据种类丰富繁多等特点，被通称为大数据应用。近年来，产业界和学术界面向不同应用场景推出了多种类型、各具特色的大数据处理系统平台。同时，一大批数据建模与分析的方法被应用于大规模数据处理。一方面，多种大数据处理平台没有统一的标准，设计目标、功能和关键技术也多有不同，对于初学者的学习带来了很大的困难，容易“只见树木不见森林”，难以形成全面的认识。另一方面，大规模数据处理要求选择恰当的算法，适合的大数据平台，才能达到其功能和性能的目标。

2019-08-01

国科大强化学习18-19春季.rar

2016年AlphaGo战胜人类顶级围棋选手，标志人工智能的一个重要里程碑事件，其中强化学习方法做出了重要的贡献。麻省理工、斯坦福、卡内基梅隆等著名学府纷纷开设或着重强化学习的课程。强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习，强化学习根据系统的状态做出动作，由环境给出奖惩信号，通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。 R. Sutton和A. Barto的《强化学习导论》自1998年第一版发行，为强化学习的关键思想和算法提供了一个清晰而简单的描述，系统介绍了该领域的知识基础和历史到最近的发展和应用。该书被公认是一本经典教材，目前正在更新出版第二版，在网上有电子版可以参考。本课程以该书为主要教材，并展开介绍最新的强化学习算法和深度强化学算法。可作为人工智能学院研究生的专业基础课。

2019-08-01

国科大数据挖掘18-19秋季.rar

本课程为计算机软件学科研究生的专业普及课程。主要介绍数据挖掘技术的起源、原理、主要算法、关键技术等。课程包含的主要议题包括：数据挖掘的重要性、特点、应用领域、数据仓库、数据预处理技术、关联规则、分类、预测、聚类、顺序模式、深度学习、大数据挖掘等。

2019-08-01

国科大图像处理与分析18-19秋季.rar

本课程是为计算机、自控、电子等学科研究生开设的专业核心课。本课程讲授经典的图像处理与分析理解领域的主要概念、算法思想和经典图像处理与分析技术。主要内容有图像模型，图像的空域与频域处理技术、彩色图像处理、小波分析与多分辨率分析技术、形态学处理、信息熵与图像编码、图像边缘检测与形状描述等。通过本课程的学习，希望学生能了解图像处理的基本概念与经典算法，为进一步学习机器视觉与图像理解打下坚实的基础，并通过Matlab语言对所学习内容的实践验证，加深对知识深入理解与灵活应用，提升学生良好的动手实践与研究能力。本课程是为计算机、自控、电子等学科研究生开设的专业核心课。本课程讲授经典的图像处理与分析理解领域的主要概念、算法思想和经典图像处理与分析技术。主要内容有图像模型，图像的空域与频域处理技术、彩色图像处理、小波分析与多分辨率分析技术、形态学处理、信息熵与图像编码、图像边缘检测与形状描述等。通过本课程的学习，希望学生能了解图像处理的基本概念与经典算法，为进一步学习机器视觉与图像理解打下坚实的基础，并通过Matlab语言对所学习内容的实践验证，加深对知识深入理解与灵活应用，提升学生良好的动手实践与研究能力。

2019-08-01

国科大计算机算法设计与分析18-19秋季.rar

本课程为计算机应用学科研究生的专业核心课程。本课程讲授和讨论计算机算法前沿研究领域的主要思想和关键技术。主要内容有算法分析技术、分治法、动态规划法、贪心法、线性规划的单纯形法和对偶法、网络流、多项式归约、NP难问题、近似算法、随机算法、参数化算法和树分解、启发式方法（局部搜索）等。通过本课程的学习，希望学生能了解计算机算法前沿研究领域，了解算法设计与分析的最新研究成果，掌握基本思想和关键技术，培养学生三个方面的能力，即将实际问题抽象成算法问题的建模能力、观察问题特性并相应设计算法的能力，以及分析算法性能的能力。

2019-08-01

Reinforcement Learning-An Introduction.pdf

强化学习导论强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理与环境的直接交互学习，而不依赖于监督或完整的环境模型。在我们看来，强化学习是第一个认真处理在学习与环境的互动时产生的计算问题，以实现长期目标的第一个领域。强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用，包括状态、动作和收益。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性，以及目标的存在性。价值和价值函数的概念是我们在本书中所考虑的大多数强化学习方法的主要特征。我们认为，在政策空间中，价值函数对于有效搜索是非常重要的。价值函数的使用区分了强化学习方法和在整个策略的标量评估指导下搜索策略空间的进化方法。

2019-07-17

国科大前沿可穿戴交互技术18-19夏季.rar

本课程为计算机科学与技术学科研究生的专业研讨课。本课程围绕可穿戴平台的交互技术展开讨论，旨在介绍该领域的前沿内容与研究思想。探讨的研究方向包括可穿戴计算平台、触摸屏界面设计和手势交互、可穿戴设备与交互、移动设备上的文字输入、触觉反馈、植入式用户界面等。通过本课程的学习，希望学生能了解可穿戴交互设备与技术的前沿研究成果和思想，学习该领域的研究方法，激发对可穿戴交互研究的兴趣，并通过讨论式的课堂学习和合作式的课题调研拓展研究眼界、锻炼研究思维以及提高研究能力。

2019-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人