机器学习
文章平均质量分 87
antkillerfarm
这个作者很懒,什么都没留下…
展开
-
机器学习(三十九)——博弈论(2), Exploration & Exploitation
博弈论智猪博弈问题智猪博弈问题是John Nash于1950年提出的问题。在一个猪圈里养着一头大猪和一头小猪,在猪圈的一端放有一个猪食槽,在另一端安装有一个按钮,它控制着猪食的供应量。假定:猪按一下按钮,就有8单位猪食进槽,但谁按按钮就会首先付出2单位成本;若大猪先到食槽,则大猪吃到7单位食物,而小猪仅能吃到1单位食物;若小猪先到,则大猪和小猪各吃到4单位食物;若两猪同时到,则大猪...原创 2020-01-06 16:09:06 · 1718 阅读 · 0 评论 -
机器学习(三十八)——博弈论(1)
博弈论博弈论(game theory)是一门单独的学科,和RL并无统属关系。然而由于RL,特别是MARL大量应用到了相关的知识,所以这里也把它写在RL系列里了。历史博弈论最早可追溯到“齐威王田忌赛马”,但它真正的发展是在20世纪下半叶。RL的历史相对比较晚,因此从渊源来看,RL=博弈论+控制论+ML。参考:https://blog.csdn.net/sobermineded/artic...原创 2019-12-23 10:31:26 · 3139 阅读 · 0 评论 -
机器学习(三十七)——Integrating Learning and Planning(3)
Integrating Learning and PlanningMonte-Carlo Search(续)下面我们结合实例(下围棋)和示意图,来实际了解MCTS的运作过程。第一次迭代:五角形表示的状态是个体第一次访问的状态,也是第一次被录入搜索树的状态。我们构建搜索树:将当前状态录入搜索树中。使用基于蒙特卡罗树搜索的策略(两个阶段),由于当前搜索树中只有当前状态,全程使用的应该是一个搜索...原创 2019-12-02 10:19:00 · 355 阅读 · 0 评论 -
机器学习(三十六)——Integrating Learning and Planning(2)
Integrating Learning and Planning(续)Table Lookup Model查表模型适用于MDP的P,R都为已知的情况。我们通过visit得到各状态行为的转移概率和奖励,把这些数据存入表中,使用时直接检索。状态转移概率和奖励计算方法如下:P^s,s′a=1N(s,a)∑t=1T1(St,At,St+1=s,a,s′)\hat{P}^a_{s,s'}=\frac...原创 2019-11-04 13:52:04 · 364 阅读 · 0 评论 -
机器学习(三十五)——Actor-Critic, Integrating Learning and Planning(1)
Actor-Critic概述MC策略梯度方法使用了收获作为状态价值的估计,它虽然是无偏的,但是噪声却比较大,也就是变异性(方差)较高。如果我们能够相对准确地估计状态价值,用它来指导策略更新,那么是不是会有更好的学习效果呢?这就是Actor-Critic策略梯度的主要思想。Actor-Critic的字面意思是“演员-评论”,相当于演员在演戏的同时,有评论家指点,继而演员演得越来越好。即使用C...原创 2019-10-28 10:05:37 · 364 阅读 · 0 评论 -
机器学习(三十四)——策略梯度
策略梯度价值函数可以进行近似的参数化表达,策略本身也同样可以函数化、参数化:πθ(s,a)=P[a∣s,θ]\pi_\theta(s,a)=P[a | s, \theta]πθ(s,a)=P[a∣s,θ]所谓函数化是指,通过一个概率分布函数πθ(s,a)\pi_\theta(s,a)πθ(s,a),来表示每一步的最优策略,在每一步根据该概率分布进行action采样,获得当前的最佳acti...原创 2019-10-21 09:36:43 · 461 阅读 · 0 评论 -
机器学习(三十三)——价值函数的近似表示
价值函数的近似表示之前的内容都是讲解一些强化学习的基础理论,这些知识只能解决一些中小规模的问题。很多价值函数需要用一张大表来存储。当获取某一状态或行为的价值的时候,通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解。在实际应用中,对于状态和行为空间都比较大的情况,精确获得各种v(s)和q(s,a)几乎是不可能的。这时候需要找到近似的函数。具体来...原创 2019-10-14 08:58:12 · 601 阅读 · 2 评论 -
机器学习(二十二)——推荐算法中的常用排序算法, Tri-training
机器学习(二十二)——推荐算法中的常用排序算法, Tri-training原创 2017-11-20 09:40:23 · 9653 阅读 · 0 评论 -
机器学习(二十三)——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动
机器学习(二十三)——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动原创 2017-12-25 10:00:52 · 7740 阅读 · 0 评论 -
机器学习(二十四)——数据不平衡问题, 强化学习
https://antkillerfarm.github.io/数据不平衡问题https://mp.weixin.qq.com/s/e0jXXCIhbaZz7xaCZl-YmA如何处理不均衡数据?https://mp.weixin.qq.com/s/2j_6hdq-MhybO_B0S7DRCA如何解决机器学习中数据不平衡问题https://mp.weixin.qq.com/原创 2018-02-05 09:10:39 · 1874 阅读 · 1 评论 -
机器学习(二十五)——强化学习(2)
https://antkillerfarm.github.io/折扣未来奖励(Discounted Future Reward)为了获得更多的奖励,我们往往不能只看当前奖励,更要看将来的奖励。给定一个MDP周期,总的奖励显然为:R=r1+r2+⋯+rnR=r1+r2+⋯+rnR=r_1+r_2+\dots+r_n那么,从当前时间t开始,总的将来的奖励为:Rt=rt+...原创 2018-02-12 10:02:20 · 825 阅读 · 3 评论 -
机器学习(二十七)——Q-learning, 动态规划
http://antkillerfarm.github.io/Q-learningQ-learning是强化学习中很重要的算法,也是最早被引入DL领域的强化学习算法,对它的研究催生了Deep Q-learning Networks。下面用一个例子来讲述Q-learning算法。上图中有5个房间,编号为0~4,将户外定义为编号5,房间之间通过门相连,则房间的联通关系可抽象为下图:...原创 2018-03-19 09:46:06 · 8593 阅读 · 0 评论 -
机器学习(二十八)——Monte-Carlo
动态规划(续)Value Iterationvk+1(s)=maxa∈A(Ras+γ∑s′∈SPass′vk(s′))vk+1(s)=maxa∈A(Rsa+γ∑s′∈SPss′avk(s′))v_{k+1}(s) = \max_{a \in \mathcal{A}}\left(\mathcal{R}_s^a + \gamma \sum_{s'\in \mathcal{S}}\mathc...原创 2018-05-07 09:30:59 · 3247 阅读 · 0 评论 -
机器学习(二十九)——Temporal-Difference Learning
https://antkillerfarm.github.io/Temporal-Difference Learning(续)TD vs. MC—3再来看如下示例:已现有两个状态(A和B),MDP未知,衰减系数为1,有如下表所示8个完整Episode的经验及对应的即时奖励,其中除了第1个Episode有状态转移外,其余7个均只有一个状态。 Episode 状态转...原创 2018-05-14 09:27:14 · 2674 阅读 · 0 评论 -
机器学习(三十)——Model-Free Control
https://antkillerfarm.github.ioModel-Free Control概述之前提到的MC & TD都是Model-free prediction,下面讲讲Model-Free Control。现实中有很多此类的例子,比如控制一个大厦内的多个电梯使得效率最高;控制直升机的特技飞行,机器人足球世界杯上控制机器人球员,围棋游戏等等。所有的这些问题要...原创 2018-05-21 09:20:28 · 2104 阅读 · 2 评论 -
机器学习(三十一)——Linear Discriminant Analysis
Linear Discriminant Analysis在《机器学习(十六)》中,我们已经讨论了一个LDA,这里我们来看看另一个LDA。Linear Discriminant Analysis是Ronald Fisher于1936年提出的方法,因此又叫做Fisher’s linear discriminant。正如之前在《知名数据集》中提到的,Iris flower Data Set也是出...原创 2018-07-02 09:32:32 · 12460 阅读 · 1 评论 -
机器学习(三十二)——t-SNE, Adaboost
t-SNE(续)SNE在介绍t-SNE之前,我们首先介绍一下SNE(Stochastic Neighbor Embedding)的原理。假设我们有数据集X,它共有N个数据点。每一个数据点xixix_i的维度为D,我们希望降低为d维。在一般用于可视化的条件下,d的取值为 2,即在平面上表示出所有数据。SNE将数据点间的欧几里德距离转化为条件概率来表征相似性:pj∣i=exp(...原创 2018-09-17 09:41:01 · 862 阅读 · 0 评论 -
机器学习(一)——线性回归、分类与逻辑回归
机器学习(一)——线性回归、分类与逻辑回归原创 2016-09-12 10:42:00 · 5249 阅读 · 3 评论 -
机器学习(二)——广义线性模型、生成学习算法
机器学习(二)——广义线性模型、生成学习算法原创 2016-09-19 09:26:07 · 2340 阅读 · 0 评论 -
机器学习(三)——朴素贝叶斯方法、SVM(1)
机器学习(三)——朴素贝叶斯方法、SVM(1)原创 2016-09-26 12:09:04 · 6677 阅读 · 0 评论 -
机器学习(二十)——EMD, LSA, HMM
机器学习(二十)——EMD, LSA, HMM原创 2017-06-12 10:10:37 · 3895 阅读 · 0 评论 -
机器学习(十九)——PageRank算法, KNN, loss function详解
机器学习(十九)——PageRank算法, KNN, loss function详解原创 2017-05-22 09:50:30 · 3115 阅读 · 0 评论 -
机器学习(十八)——关联规则挖掘
机器学习(十八)——关联规则挖掘原创 2017-03-08 19:50:48 · 26709 阅读 · 1 评论 -
机器学习(十七)——决策树, 推荐系统进阶
机器学习(十七)——决策树, 推荐系统进阶原创 2017-02-27 13:12:31 · 7149 阅读 · 2 评论 -
机器学习(十六)——隐式狄利克雷划分
机器学习(十六)——隐式狄利克雷划分原创 2017-02-13 14:14:32 · 1848 阅读 · 0 评论 -
机器学习(十五)——loss function比较、独立成分分析
机器学习(十五)——loss function比较、独立成分分析原创 2016-12-26 10:10:13 · 8248 阅读 · 0 评论 -
机器学习(十四)——协同过滤的ALS算法(2)、主成分分析
机器学习(十四)——协同过滤的ALS算法(2)、主成分分析原创 2016-12-19 09:41:48 · 19903 阅读 · 3 评论 -
机器学习(十三)——机器学习中的矩阵方法(3)病态矩阵、协同过滤的ALS算法(1)
机器学习(十三)——机器学习中的矩阵方法(3)病态矩阵、协同过滤的ALS算法(1)原创 2016-12-12 09:20:38 · 10299 阅读 · 3 评论 -
机器学习(十二)——机器学习中的矩阵方法(2)特征值和奇异值
机器学习(十二)——机器学习中的矩阵方法(2)特征值和奇异值原创 2016-12-05 09:14:07 · 14698 阅读 · 0 评论 -
机器学习(十一)——机器学习中的矩阵方法(1)LU分解、QR分解
机器学习(十一)——机器学习中的矩阵方法(1)LU分解、QR分解原创 2016-11-28 10:25:15 · 5719 阅读 · 0 评论 -
机器学习(十)——因子分析
机器学习(十)——因子分析原创 2016-11-21 10:34:08 · 4548 阅读 · 0 评论 -
机器学习(九)——EM算法
机器学习(九)——EM算法原创 2016-11-14 10:44:14 · 1353 阅读 · 0 评论 -
机器学习(八)——在线学习、K-Means算法、混合高斯模型和EM算法
机器学习(八)——在线学习、K-Means算法、混合高斯模型和EM算法原创 2016-11-07 10:36:50 · 4292 阅读 · 0 评论 -
机器学习(七)——规则化和模型选择
机器学习(七)——规则化和模型选择原创 2016-10-31 10:10:44 · 4329 阅读 · 1 评论 -
机器学习(六)——SVM(4)、学习理论
机器学习(六)——SVM(4)、学习理论原创 2016-10-24 13:36:40 · 1038 阅读 · 0 评论 -
机器学习(五)——SVM(3)
机器学习(五)——SVM(3)原创 2016-10-17 09:49:00 · 816 阅读 · 0 评论 -
机器学习(四)——SVM(2)
机器学习(四)——SVM(2)原创 2016-10-08 10:00:18 · 1396 阅读 · 0 评论 -
机器学习(二十一)——Optimizer, 单分类SVM&多分类SVM, 时间序列分析
机器学习(二十一)——Optimizer, 单分类SVM&多分类SVM, 时间序列分析原创 2017-06-19 10:01:46 · 17605 阅读 · 0 评论