war3gu-CSDN博客

原创 LEARNING ACTIONABLE REPRESENTATIONS WITH GOAL-CONDITIONED POLICIES

ARC Actionable representations for controlDAct(s1,s2) Actionable distancesarc 状态表达将着重记录那些对action有影响的状态信息，对于是否能重构原始状态并不关心首先在一个强化学习环境中生成最大熵目标导向策略πθ (a|s, g)s1和s2的ACT距离：就是从同一个起始点s...

2019-06-06 17:40:39 311

原创自然语言处理各类方法和模型

自然语言处理的基本方法基于词向量的表达：1.count-based 设置一个词窗口，然后根据这个词窗口生成共现矩阵，然后进行SVD分解2.prediction-based 这种方法最后一步softmax的计算量太大，要对几十万维的向量进行点积，一般流行把softmax改为sigmoid函数，正确的例子，结果靠近1，负采样得到一些错误的例子，结果靠近0，一起参与训练ELMO 一共4层基于...

2019-05-30 15:09:02 4517

用一个actor pie 与环境交互，然后学习得到这个actor的Q函数，然后通过某种方法找到一个pie plus，它的Q函数更好，如此往复，actor越来越好double DQN，因为被高估的action，容易被选中，导致最后的Q函数高估。所以用run network选择action，target network 算值dueling DQN，将Q分解为V+A，A的和强制为0，这样更新V，可...

2019-05-30 15:03:21 371

原创 SVM

两种理解：1.寻找一个超平面可以把类分开，并且间隔最大。最后转化为一个式子maxmin，这是一个二次规划问题，凸优化，可以得到解析解2.就是一个深度学习问题，可以通过BP算法学得权重w。其中的loss function 使用hinge loss, max(0, 1-y^*f(x))最初的问题是 g(x) = f(x) > 0 Output = +1g(x) = f(x) <0...

2019-05-30 15:01:27 142

原创 auto encoder

Deep auto-encoder 与受限玻尔兹曼机有点像，都可以进行信息的压缩，都可以用作pre-trainning.区别在于受限玻尔兹曼机是无向图模型，而Deep auto-encoder是一种神经网络,中间特别窄的bottle neck的数据作为压缩的codeencoder 与 decoder 的参数可以相互独立，也可以互为逆数字图片 auto-encoder，越是deep的auto-e...

2019-05-30 14:59:36 294

原创受限玻尔兹曼机

类似一个autoencoder，但是压缩的结果是不定的，每个节点符合伯努利分布首先，根据能量函数，能量越大，出现的概率越低，给出的是显层和隐层的联合概率分布，据此可以得出，显层和隐层的条件概率分布如何训练：先根据显层预测隐层再根据隐层预测显层w = w + r*(两次显层的差值)推荐系统的应用假设一个人有N个物品有评分，M个物品无评分，就将这个人的N个物品评分放入受限玻尔兹曼机中进行...

2019-05-30 14:56:44 130

原创深度学习异常检测

有label的数据：确定一个信心分数阈值，Classifier得出的信心分数大于阈值，才表明是正常数据如何确定信心分数阈值：先定义一个cost table，表明false alarm和missing的得分，根据cost table计算特定阈值的得分，使用得分最高者阈值无label的数据：方法1: 假设数据符合高斯分布，最大化似然函数，得到均值和标准差，然后根据统计再定义一个阈值，就可以判...

2019-05-30 14:54:06 5285

原创深度学习可解释性

local explanation方法1:用小方块盖住图片的一块区域，看看模型还能不能正确识别图片，如果不能，说明这块区域很重要方法2:Saliency Map 求图片的正确识别结果对图片上每个像素的梯度，梯度绝对值越大越重要。限制，稍微长点的鼻子就可以识别为大象，更长的鼻子部分的梯度有可能变得非常小。可能被攻击，加上噪音，卡车识别正确，但是因为是云彩global explanation方...

2019-05-30 14:52:39 2438

原创深度学习攻击和防御

白盒子攻击Non-targeted attack 调整图片的像素，使输出与正确答案越远越好Targeted attack 调整图片的像素，使输出与正确答案越远越好，与错误答案越近越好调整后的图片与原图片距离要足够小。距离定义一般有2种方法：L2-norm，平方和， L-infinity 最大值具体算法：还是正常的梯度下降，但是如果超出了调整距离范围，就把它拉回来解释：...

2019-05-30 14:50:23 1995

原创机器学习和量化投资

70%训练，15%验证，15%测试利用 cross validation ，寻找合适的超参数使用遗传算法选择合适的输入特征，定义fitness函数，选择R2最大的属性随机森林定义大量的决策树进行决策adaboost利用大量的子分类器，对子分类器分配权重，对训练数据分配权重，分类错误的数据得到更大的权重，组合成一个更强的分类器riage是L2，参数空间是圆形，lasso是L1，参数空间是矩...

2019-05-30 14:47:46 1859

原创遗传算法

遗传算法1.编码2.随机生成大量的初代个体3.定义适应函数，对初代个体使用适应函数，得到适应值4.根据适应值，抽取得到N个个体对，可以重复抽取（就像人类社会，优秀的个体有更多的交配权）5.交叉，随机交换基因，生成N个新个体6.变异，N个新个体，有一定概率，发生基因突变7.结束函数满足，结束；结束函数不满足，回到第四步...

2019-05-30 14:41:44 142

原创如何使用CNN预测股票

大盘股被单股力量操纵的可能性比较低，所以选大盘股.100个交易日为1组，每隔25个交易日，选一组。如果一只股票交易20年，大概可以选得200组。搞50只大盘股，那么就有10k的数据可以使用。数据格式是100个连续交易日的涨跌幅度，卷积核是1*5的矩阵，输出是后面3个交易日的涨跌+总涨幅是否超过5%，如果后面3个交易日的全涨并且总涨幅超过5%，就是1111,如果总涨幅没有超过5%，就是1110....

2019-05-29 15:41:12 5116

原创卷积神经网络CNN

卷积核往往代表一个特征，比如某个卷积和代表一段弧，那么把这个卷积核在整个图片上滚一下，卷积值较大的区域就很有可能是一段弧采样的目的主要是混淆特征的具体位置，因为某个特征找出来后，它的具体位置已经不重要了，我们只需要这个特征与其他的相对位置，比如一个“8”，当我们得到了上面一个"o"时，我们不需要知道它在图像的具体位置，只需要知道它下面又是一个“o”我们就可以知道是一个’8’了，因为图片中"8"在...

2019-05-29 15:39:17 197

原创集成学习

bagging方法bagging也叫自举汇聚法（bootstrap aggregating），是一种在原始数据集上通过有放回抽样重新选出S个新数据集来训练分类器的集成技术。也就是说这些新数据集是允许重复的。使用训练出来的分类器集合来对新样本进行分类，然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果，结果最高的类别即为最终标签。boosting方法分类器集合是在迭代中串行地产生的...

2019-05-29 15:37:21 106

原创多项式分布

更一般性的问题会问：“点数16的出现次数分别为(x1,x2,x3,x4,x5,x6)时的概率是多少？其中sum(x1x6）= n”。这就是一个多项式分布。我们知道，在代数学里当k个变量的和的N次方的展开式(p1+ p2+…+ pk )^N 是一个多项式，其一般项就是前面的公式给出的值。如果这k个变量恰好是可能有的各种结局的出现概率，那么，由于这些概率的合计值对应一个必然事件的概率。而必然事件的概...

2019-05-29 15:35:19 1441

原创狄利克雷分布

简单的例子来说明。假设你手上有一枚六面骰子。你抛掷1000次，得到一个朝向的分布p1 = <H1, H2, H3, H4, H5, H6>。H1是指数字1朝上次数，H2是指数字2朝上次数， H3， H4， H5， H6依次类推。你再抛掷1000次，又会得到一个朝向的分布p2。重复N次之后，你就会得到N个分布：p1, p2, p3, … , pn. 假如有这样一个分布D，能够描述抛这枚骰...

2019-05-29 15:32:53 1237

原创 vae个人理解

input data的分布空间是不定的，但是latent vector的分布空间，是可以进行人为的设定。之前的normal autoencoder，对latent vector的分布空间没有要求，编码器参数灵活度比较高，现在对latent vector的分布空间进行了限制，那么编码器参数灵活度也就被限制了。...

2019-05-29 15:25:42 1068

原创机器学习英语口语学习

if we just keep stacking layers, is the network get better every time?如果我们不停堆积层次，网络是否每次都会变得更好Create an interface, which takes as input the business object, and as output a type of string这是一个倒装句， ta...

2019-05-29 15:23:00 305

原创机器学习英文关键字

softmax e的N次方，然后除以和square error 方差cross entroy 交叉熵，解决方差梯度太小，回归太慢的问题Adagrad 计算learning rateRMSProp 计算learning rateMomentum 修正梯度方向Adam RMSProp+Momentumdropout ...

2019-05-29 15:20:46 582

原创强化学习基本概念

Value-Based（或Q-Learning）和Policy-Based（或Policy Gradients）是强化学习中最重要的两类方法，区别在于Value-Based是预测某个State下所有Action的期望价值（Q值），之后通过选择最大Q值对应的Action执行策略，适合仅有少量离散取值的Action的环境；Policy-Based是直接预测某个State下应该采取的Action，适...

2019-05-29 15:13:16 145

原创 ddqn

发现并证明了传统的DQN普遍会过高估计Action的Q值，而且估计误差会随Action的个数增加而增加。如果高估不是均匀的，则会导致某个次优的Action高估的Q值超过了最优Action的Q值，永远无法找到最优的策略。作者在他2010年提出的Double Q-Learning的基础上，将该方法引入了DQN中。具体操作是对要学习的Target Q值生成方式进行修改，原版的DQN中是使用TargetN...

2019-05-29 15:10:20 1525

原创 dqn

DL与RL结合的问题DL需要大量带标签的样本进行监督学习；RL只有reward返回值，而且伴随着噪声，延迟（过了几十毫秒才返回），稀疏（很多State的reward是0）等问题；DL的样本独立；RL前后state状态相关；DL目标分布固定；RL的分布一直变化，比如你玩一个游戏，一个关卡和下一个关卡的状态分布是不同的，所以训练好了前一个关卡，下一个关卡又要重新训练；过往的研究表明，使用非线...

2019-05-28 15:58:47 3658

原创 dueling-dqn

在许多基于视觉的感知的DRL任务中，不同的状态动作对的值函数是不同的，但是在某些状态下，值函数的大小与动作无关。根据以上思想，Wang等人提出了一种竞争网络结构（dueling network）作为DQN的网络模型。如上图所示，第一个模型是一般的DQN网络模型，即输入层接三个卷积层后，接两个全连接层，输出为每个动作的Q值。而（第二个模型）竞争网络（dueling net）将卷积层提取的抽象特征...

2019-05-28 15:54:00 701

原创 stochastic policy 和 Deterministic Policy 区别

核心的区别其实很简单，最终的策略是学出 pie(s) = a 还是 pie(s, a) = pdeterministic policy 缺少探索，容易出以下问题：2个一样的state（实际上不一样的，但是agent观察到的只是env的一部分，导致认为是一样的），输出同样的action，一个是正确，一个导致灾难性的后果。详情见，David Silver在视频中的迷宫例子。...

2019-05-28 15:51:30 1270

原创 TD简单说明

每一个后面的state，都可以修正前面的state的V(s).后一state的V(s)更接近真实值，比如后一state恰好是自循环，那么它的V(s)经过很少的几个回合，就可以得到真实值开车，前一秒感觉很正常，后一秒感觉快撞车，这时候就要修正前一秒的感觉TD Target 应该等于 V(s),TD error 应该等于0。这样得到的V(s)函数才是正确的利用每一step的数据评估V(s),M...

2019-05-28 15:48:37 651

原创 alpha zero说明

只有一个神经网络，采用最原始的棋盘信息，输出状态s的行棋概率p和价值v（就是胜利的概率）使用了残差网络每一步操作之后，都更新神经网络每条edge代表一种状态下的一种操作。需要记录3个值，P(s,a)操作概率，N(s,a)访问次数，Q(s,a)操作价值（胜利概率）MCTS探索中，每次行棋都遵从最大化UCB（这个只是模拟中的探索策略，不是最终的行棋策略π）碰到叶子结点s′，开始expand...

2019-05-28 15:44:31 1030

原创 David Silver深度强化学习第10课

纳什均衡中所有人都达到最优策略，没人愿意改变策略，改变意味着漏出破绽，别人就会改变策略，打败你。纳什均衡策略，就是你的最优策略，也是别人的最优策略，是所有参与者的最优策略。这个策略没有漏洞，无法被针对，其余的策略，都是可以被针对的，这一个是例外的。可以这么理解：游戏玩家不停的根据对手的策略修改自己的策略，直到所有人都达到一个最优的策略，那就是纳什均衡。别人改变策略，你的rl环境就变了，你改变...

2019-05-28 00:28:02 307

原创 David Silver深度强化学习第9课

decaying e-greedy 需要知道最优的Q(a)，然后计算与次优的Q（a）之间的gap，gap越大，就越不需要探索，越小就越需要探索，这种算法的regret函数呈现对数形式，是最好的。但是最优的Q(a)并不能预先知晓，所以需要想办法解决。每一台赌博机的Q值分布都是不一样的，越是分布广泛的Q代表其不确定性强，就要多操作，取得经验，提高其确定性一般的做法是：select action...

2019-05-28 00:26:01 246

原创 David Silver深度强化学习第8课

利用数据建立MDP模型，解出转化概率函数和reward函数从模型中采样对采样执行model-free rl（只所以对模型采样，而不是硬解模型预测未来，是为了提高效率，采样可以聚焦于大量出现的重要的事件）dyna算法核心learn and plan value function or policy from real and simulated experienceforward sear...

2019-05-28 00:21:09 202

原创 David Silver深度强化学习第7课

∇θπθ(s,a) = πθ(s, a) *[∇θπθ(s, a)/ πθ(s, a)] = πθ(s, a)∇θ logπθ(s, a)，而这个∇θlog πθ(s, a)我们称之为得分函数（Score function）score function 是对数策略梯度MC policy gradient episode结束后，计算每个Q(s,a)，然后按照score function * r...

2019-05-28 00:18:21 193

原创协程

协程像一般的程序一样，也可以一层层的调用下去。区别1.可以使用await进行挂起。挂起后，当前的堆栈信息进行保留，切换到别的协程执行2.必须由event loop启动，管理3.await关键字添加了一个新的协程到循环里，而不需要明确地添加协程到这个事件循环里4.await 后可以添加Future对象event_loop 事件循环：程序开启一个无限的循环，程序员会把一些函数注册到事件循环...

2019-05-27 19:14:56 222

原创生成器

def fib():prev, curr = 0, 1while True:yield currprev, curr = curr, curr + prevfib就是一个普通的python函数，它特殊的地方在于函数体中没有return关键字，函数的返回值是一个生成器对象。当执行f=fib()返回的是一个生成器对象，此时函数体中的代码并不会执行，只有显示或隐示地调用next的时候才会真正执...

2019-05-27 19:13:29 79

原创 tensorflow操作学习

在命令行中启动tensorflowcd tensorflowsource bin/activatepython 就可以启动python环境了但是现在用pycharm进行开发，只要配置好环境参数就可以了启动 tensorboardtensorboard --logdir=/Users/guyuankun/Documents/Resource/tensorflow/mnist/log...

2019-05-27 17:44:14 78

原创 tensorflow接口学习

似乎每个Tensor对应底层的一个值似乎每个OP都必须由sees.run触发Tensor对应一个高维空间，比如(1，2，3)对应一个三维空间，每一维的长度分别为1，2，3. （0，0，0）标示了其中一个元素的坐标。(4,5,6,7)对应一个四维空间，每一维的长度分别为4，5，6，7. （3，3，3，3）标示了其中一个元素的坐标。一个样本有n个属性，集合有m个样本，则表达这个...

2019-05-27 17:41:29 120

原创 This Robot Learned To Clean Up Clutter

ai可以解决复杂的积木整理问题，本问题的积木是组合好的，太大，机械手臂无法拿起，需要先push，把积木分开，再grasp，才能解决问题输入是RGB-D相机提供的图片，一个push网络，一个grasp网络，输出最好的push，grasp行为为了加快训练过程，在模拟环境中训练。本算法有很好的泛化能力，用不光滑的木头积木训练，训练好，可以处理新物件的整理问题...

2019-05-27 17:33:33 97

原创 This AI Learned To Isolate Speech Signals

ai可以根据视频和音频，将音频数据进行分割，这样就能将一个人的声音从噪声中分离出来。整个就是一巨大的监督学习网络，输入视频，混和音频，输出分开的音频。...

2019-05-27 17:31:45 115

原创 This Curious AI Beats Many Games...and Gets Addicted to the TV

拥有好奇心的ai容易被闪烁的内容吸引，在3d场景中，如果某块墙壁的贴图不停切换，ai倾向于停在墙壁前不动

2019-05-27 17:30:10 103

原创复杂高分辨率贴图生成

先从已有的高分辨率的贴图上切下来一小块，然后对这小块使用扩展神经网络进行扩展，得到高分辨率的图片与原始图片进行对比，差别过大就进行惩罚。这是一个gan的过程，不停生成，分辨，生成，分辨，生成器最后就能把小的贴图自动的扩展为大的...

2019-05-27 17:28:31 366

原创通过对材质进行打分，ai程序可以自动生成高得分的材质

neural rendering 通过监督学习，ai可以自动进行生成渲染结果，速度比传统的渲染程序快10倍以上。已有渲染效果图，通过神经网络直接转化为材质，然后进行微调，然后使用neural rendering进行渲染...

2019-05-27 17:20:52 182

原创 openai dota2 细节

openai dota2 细节ai直接读引擎数据，大约有2000个数据有部分子目标是由既了解dota2又了解优化算法的人预先设定的，比如击杀敌方英雄，自己死亡，塔的价值等的奖励函数都是预先写死的没有使用simulationai乱插眼，是因为插眼的价值函数很难判断，开发人员允许比赛中ai插眼，只能为了看ai的表现，希望有所收获ai喜欢去看肉山，是因为开发人员在训练的时候把肉山的血量随机生...

2019-05-27 17:10:57 2596

atlbrowser

空空如也