- 博客(15)
- 资源 (11)
- 收藏
- 关注
原创 强化学习导论(3)有限马尔可夫决策过程
本章我们介绍有限马尔可夫决策过程(Finite MDPs),这个问题和赌博机一样涉及到评估的反馈,但这里还多了一个方面--在不同的情况作出不同的选择。MDPs是经典的序列判定决策模型,就是说,你不是作出一个选择就会马上获得reward,和赌博机不一样,赌博机你只要摇一次臂即可立刻获得reward,而MDPs就像下象棋,你只有结束了对局你才会获得reward,但下象棋从开始到结束涉及到很多个行动,也
2017-12-31 10:24:10 1958
原创 强化学习导论(2)多臂赌博机
本书的这一部分的第一章描述了强化学习问题的特例,其中只有一种状态,叫做老虎机问题。第二章描述了我们在整个有限马尔可夫决策过程中所讨论的一般问题的表述及其主要思想,包括贝尔曼方程和值函数。接下来的三章描述了求解有限马尔可夫的三类基本方法。决策问题:动态规划、蒙特卡罗方法和时间差分学习。每一类方法都有其优点和缺点。动态规划方法在数学上有不错的发展,但需要一个完整和准确的环境模型。蒙特卡罗方法不需要模型
2017-12-30 18:01:41 1350
原创 强化学习导论(1)帝王引擎的轰鸣声
之前写完机器学习一个介绍系列,准备开始学强化学习,然而尴尬的发现,市面上竟然没有强化学习的教程,我指的是强化学习的书籍,网上倒是有很多强化学习的算法,如K摇臂,Q-learning,sarsa,ppo等,但没有一个完整系统的教程,于是我打算把Reinforcement Learning:An Introduction这本书翻译过来,一方面我学习需要,另一方面也希望能帮到别人,如果也有想翻译这本书的
2017-12-28 16:39:53 2281
原创 手把手带你用机器学习写unity AI
2017unity机器学习社区挑战赛参加地址:https://connect.unity.com/challenges/ml-agents-1 win 10 上搭建Unity 机器学习环境:https://unity3d.college/2017/10/25/machine-learning-in-unity3d-setting-up-the-environment-tensorflow-for-
2017-12-25 17:49:35 1828
原创 unityの刚体坑
每遇一坑更新一次1,角色移动系列:单纯移动不考虑碰撞:Transform xxx;xxx.transform.Translate(0, 0, 2, Space.Self);xxx.transform.Rotate(0,10,0,Space.Self);以上Space.Self是以自身坐标考虑碰撞:一定先在移动对象上添加Rigidbody组件;以世界坐标的移动,就是无
2017-12-18 14:07:44 993
转载 Unity机器学习代理ML-Agents v0.2版本
下载ML-Agents v0.2下载地址: https://github.com/Unity-Technologies/ml-agents发行说明:https://github.com/Unity-Technologies/ml-agents/releases/tag/0.2.0ML-Agents v0.2新特性课程学习
2017-12-17 11:02:22 1199
原创 机器学习(10)隐马尔可夫模型
“多一条公式,少一半读者”--霍金饮水不忘挖井人,感谢知乎上关于隐马尔可夫的回答。这里分两部分,第一部分是隐马尔可夫模型“像”什么,第二部分是实际应用中,隐马尔可夫模型的三类问题。第一部分:有一款游戏,里面有个角色,职业是战士,战士有三种状态:正常状态,狂暴状态,防御状态。战士战斗只有两种动作:平A和格挡。正常状态:平A出现暴击的概率为2
2017-12-16 18:04:22 492
原创 机器学习(9)贝叶斯分类
先来看一个例子:假设广东娱乐大学里面男生和女生人数比例是3:1,男生中留长发的比例是10%,女生留长发的比例是80%。现在随机观测到N个留长发的学生的背影,推论这N个学生中女生的比例。这里假设学校总人数是U人,P(男)表示U人中男生的比例,即75%,P(长发|男)表示在男里面长发的比例,即10%,这就是个条件概率。那么,同样地,P(女)=25%,P(长发|女)=80%
2017-12-15 17:09:09 354
原创 机器学习(8)决策树
决策树生成是一个递归过程,是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的“树”。有一堆水果,其中有香蕉,苹果,杏这三类,现在要对它们分类,可以选择的特征有两个:形状和大小,其中形状的取值有个:圆形和不规则形,大小的取值有:相对大和相对小。现在要对其做分类,我们可以这样做:首先根据特征:形状,如果不是圆形,那么一定是香蕉,这个就是叶子节点;
2017-12-14 16:57:48 370
原创 机器学习(7)K-mean聚类
聚类属于非监督学习,k-mean是聚类中经典算法。非监督学习即是只有样本没有标签。训练数据集{x(1),x(2),…,x(m)}{x(1),x(2),…,x(m)}(其中x(i)∈Rnx(i)∈Rn)和聚类数量KK(将数据划分为KK类);算法输出是KK个聚类中心μ1,μ2,…,μKμ1,μ2,…,μK和每个数据点x(i)x(i)所在的分类。步骤:1,初始化K个聚类中心μ1,μ2,…,μ
2017-12-13 16:50:03 485 1
原创 机器学习(6)SVM
SVM有严格的数学证明,但挺复杂,我仅粗略地写下这篇文章。用一个二维空间里仅有两类样本的分类问题来举个小例子。假设我们给定了下图左图所示的两类点Class1和Class2(也就是正样本集和负样本集)。我们的任务是要找到一个线,把他们划分开。显然,只要在两堆数据中划一条线就可以。但划线也有很多种画法:那到底哪种分法比较好?SVM试图寻找一个超平面来对样本进行分割,把样
2017-12-08 12:18:11 438
原创 Tensorflow从入门到秃顶(4)
Tensorflow中构建神经网络所需要的神经元函数,包括各种激活函数,卷积函数,池化函数,损失函数,优化器等。激活函数运行时激活神经网络中某一部分神经元,将激活信息向后传入下一层的神经网络。神经网络之所以能解决非线性问题(如语音,图像识别),本质上就是激活函数加入非线性因素,弥补了线性模型的表达力,把“激活的神经元的特征”通过函数保留并映射到下一层。tf.nn.relu()tf.nn
2017-12-04 13:20:12 638
原创 Tensorflow从入门到秃顶(3)
Tensorflow提供填充机制,可以在构建图的时候使用placeholder临时替代任何操作的张量,在调用Session对象的run时再执行,使用填充数据作为调用参数,调用结束后,填充数据就消失。一段性感的代码:import tensorflow as tf#在tensorflow中需要定义placeholder的type,一般float32形式input1 = t
2017-12-04 12:28:55 388
原创 Tensorflow从入门到秃顶(2)
Variable是一种特殊的数据,它在途中有固定的位置,不像普通张量那样可以流动,创建变量张量,使用tf.Variable()构造函数,这个构造函数需要一个初始值,初始值的形状和类型决定了这个变量的形状和类型。如:state = tf.Variable(0,name = "counter") 创建一个变量,初始化为标量0一段性感的代码:import tensorflow
2017-12-04 11:34:23 340
原创 tensorflow从人们到升仙(1)
tensorflow的hello world来一段性感的代码:import tensorflow as tfimport numpy as np#创建数据x = np.random.rand(200).astype(np.float32)y_data = x * 0.1 + 0.3 # y = weights * x + biases#搭建模型weights =
2017-12-03 19:31:06 306 1
resonance-audio-unity-sdk-master
2017-11-14
Unity Machine Learning Agents
2017-09-26
UFPS 1.4.7c.unitypackage
2017-06-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人