机器学习_antkillerfarm的博客-CSDN博客

机器学习

关注

文章平均质量分 87

关注数：文章数：38 文章阅读量：208250 文章收藏量：371

作者: antkillerfarm

这个作者很懒，什么都没留下…

展开

机器学习（三十九）——博弈论（2）, Exploration & Exploitation

博弈论智猪博弈问题智猪博弈问题是John Nash于1950年提出的问题。在一个猪圈里养着一头大猪和一头小猪，在猪圈的一端放有一个猪食槽，在另一端安装有一个按钮，它控制着猪食的供应量。假定：猪按一下按钮，就有8单位猪食进槽，但谁按按钮就会首先付出2单位成本；若大猪先到食槽，则大猪吃到7单位食物，而小猪仅能吃到1单位食物；若小猪先到，则大猪和小猪各吃到4单位食物；若两猪同时到，则大猪...

原创 2020-01-06 16:09:06 · 1718 阅读 · 0 评论
机器学习（三十八）——博弈论（1）

博弈论博弈论（game theory）是一门单独的学科，和RL并无统属关系。然而由于RL，特别是MARL大量应用到了相关的知识，所以这里也把它写在RL系列里了。历史博弈论最早可追溯到“齐威王田忌赛马”，但它真正的发展是在20世纪下半叶。RL的历史相对比较晚，因此从渊源来看，RL=博弈论+控制论+ML。参考：https://blog.csdn.net/sobermineded/artic...

原创 2019-12-23 10:31:26 · 3139 阅读 · 0 评论
机器学习（三十七）——Integrating Learning and Planning（3）

Integrating Learning and PlanningMonte-Carlo Search（续）下面我们结合实例（下围棋）和示意图，来实际了解MCTS的运作过程。第一次迭代：五角形表示的状态是个体第一次访问的状态，也是第一次被录入搜索树的状态。我们构建搜索树：将当前状态录入搜索树中。使用基于蒙特卡罗树搜索的策略（两个阶段），由于当前搜索树中只有当前状态，全程使用的应该是一个搜索...

原创 2019-12-02 10:19:00 · 355 阅读 · 0 评论
机器学习（三十六）——Integrating Learning and Planning（2）

Integrating Learning and Planning（续）Table Lookup Model查表模型适用于MDP的P，R都为已知的情况。我们通过visit得到各状态行为的转移概率和奖励，把这些数据存入表中，使用时直接检索。状态转移概率和奖励计算方法如下：P^s,s′a=1N(s,a)∑t=1T1(St,At,St+1=s,a,s′)\hat{P}^a_{s,s'}=\frac...

原创 2019-11-04 13:52:04 · 364 阅读 · 0 评论
机器学习（三十五）——Actor-Critic, Integrating Learning and Planning（1）

Actor-Critic概述MC策略梯度方法使用了收获作为状态价值的估计，它虽然是无偏的，但是噪声却比较大，也就是变异性（方差）较高。如果我们能够相对准确地估计状态价值，用它来指导策略更新，那么是不是会有更好的学习效果呢？这就是Actor-Critic策略梯度的主要思想。Actor-Critic的字面意思是“演员-评论”，相当于演员在演戏的同时，有评论家指点，继而演员演得越来越好。即使用C...

原创 2019-10-28 10:05:37 · 364 阅读 · 0 评论
机器学习（三十四）——策略梯度

策略梯度价值函数可以进行近似的参数化表达，策略本身也同样可以函数化、参数化：πθ(s,a)=P[a∣s,θ]\pi_\theta(s,a)=P[a | s, \theta]πθ(s,a)=P[a∣s,θ]所谓函数化是指，通过一个概率分布函数πθ(s,a)\pi_\theta(s,a)πθ(s,a)，来表示每一步的最优策略，在每一步根据该概率分布进行action采样，获得当前的最佳acti...

原创 2019-10-21 09:36:43 · 461 阅读 · 0 评论
机器学习（三十三）——价值函数的近似表示

价值函数的近似表示之前的内容都是讲解一些强化学习的基础理论，这些知识只能解决一些中小规模的问题。很多价值函数需要用一张大表来存储。当获取某一状态或行为的价值的时候，通常需要一个查表操作（Table Lookup），这对于那些状态空间或行为空间很大的问题几乎无法求解。在实际应用中，对于状态和行为空间都比较大的情况，精确获得各种v(s)和q(s,a)几乎是不可能的。这时候需要找到近似的函数。具体来...

原创 2019-10-14 08:58:12 · 601 阅读 · 2 评论
机器学习（二十二）——推荐算法中的常用排序算法, Tri-training

机器学习（二十二）——推荐算法中的常用排序算法, Tri-training

原创 2017-11-20 09:40:23 · 9653 阅读 · 0 评论
机器学习（二十三）——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动

机器学习（二十三）——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动

原创 2017-12-25 10:00:52 · 7740 阅读 · 0 评论
机器学习（二十四）——数据不平衡问题, 强化学习

https://antkillerfarm.github.io/数据不平衡问题https://mp.weixin.qq.com/s/e0jXXCIhbaZz7xaCZl-YmA如何处理不均衡数据？https://mp.weixin.qq.com/s/2j_6hdq-MhybO_B0S7DRCA如何解决机器学习中数据不平衡问题https://mp.weixin.qq.com/

原创 2018-02-05 09:10:39 · 1874 阅读 · 1 评论
机器学习（二十五）——强化学习（2）

https://antkillerfarm.github.io/折扣未来奖励（Discounted Future Reward）为了获得更多的奖励，我们往往不能只看当前奖励，更要看将来的奖励。给定一个MDP周期，总的奖励显然为：R=r1+r2+⋯+rnR=r1+r2+⋯+rnR=r_1+r_2+\dots+r_n那么，从当前时间t开始，总的将来的奖励为：Rt=rt+...

原创 2018-02-12 10:02:20 · 825 阅读 · 3 评论
机器学习（二十七）——Q-learning, 动态规划

http://antkillerfarm.github.io/Q-learningQ-learning是强化学习中很重要的算法，也是最早被引入DL领域的强化学习算法，对它的研究催生了Deep Q-learning Networks。下面用一个例子来讲述Q-learning算法。上图中有5个房间，编号为0～4，将户外定义为编号5，房间之间通过门相连，则房间的联通关系可抽象为下图：...

原创 2018-03-19 09:46:06 · 8593 阅读 · 0 评论
机器学习（二十八）——Monte-Carlo

动态规划（续）Value Iterationvk+1(s)=maxa∈A(Ras+γ∑s′∈SPass′vk(s′))vk+1(s)=maxa∈A(Rsa+γ∑s′∈SPss′avk(s′))v_{k+1}(s) = \max_{a \in \mathcal{A}}\left(\mathcal{R}_s^a + \gamma \sum_{s'\in \mathcal{S}}\mathc...

原创 2018-05-07 09:30:59 · 3247 阅读 · 0 评论
机器学习（二十九）——Temporal-Difference Learning

https://antkillerfarm.github.io/Temporal-Difference Learning（续）TD vs. MC—3再来看如下示例：已现有两个状态(A和B)，MDP未知，衰减系数为1，有如下表所示8个完整Episode的经验及对应的即时奖励，其中除了第1个Episode有状态转移外，其余7个均只有一个状态。 Episode 状态转...

原创 2018-05-14 09:27:14 · 2674 阅读 · 0 评论
机器学习（三十）——Model-Free Control

https://antkillerfarm.github.ioModel-Free Control概述之前提到的MC & TD都是Model-free prediction，下面讲讲Model-Free Control。现实中有很多此类的例子，比如控制一个大厦内的多个电梯使得效率最高；控制直升机的特技飞行，机器人足球世界杯上控制机器人球员，围棋游戏等等。所有的这些问题要...

原创 2018-05-21 09:20:28 · 2104 阅读 · 2 评论
机器学习（三十一）——Linear Discriminant Analysis

Linear Discriminant Analysis在《机器学习（十六）》中，我们已经讨论了一个LDA，这里我们来看看另一个LDA。Linear Discriminant Analysis是Ronald Fisher于1936年提出的方法，因此又叫做Fisher’s linear discriminant。正如之前在《知名数据集》中提到的，Iris flower Data Set也是出...

原创 2018-07-02 09:32:32 · 12460 阅读 · 1 评论
机器学习（三十二）——t-SNE, Adaboost

t-SNE（续）SNE在介绍t-SNE之前，我们首先介绍一下SNE（Stochastic Neighbor Embedding）的原理。假设我们有数据集X，它共有N个数据点。每一个数据点xixix_i的维度为D，我们希望降低为d维。在一般用于可视化的条件下，d的取值为 2，即在平面上表示出所有数据。SNE将数据点间的欧几里德距离转化为条件概率来表征相似性：pj∣i=exp(...

原创 2018-09-17 09:41:01 · 862 阅读 · 0 评论
机器学习（一）——线性回归、分类与逻辑回归

机器学习（一）——线性回归、分类与逻辑回归

原创 2016-09-12 10:42:00 · 5249 阅读 · 3 评论
机器学习（二）——广义线性模型、生成学习算法

机器学习（二）——广义线性模型、生成学习算法

原创 2016-09-19 09:26:07 · 2340 阅读 · 0 评论
机器学习（三）——朴素贝叶斯方法、SVM（1）

机器学习（三）——朴素贝叶斯方法、SVM（1）

原创 2016-09-26 12:09:04 · 6677 阅读 · 0 评论
机器学习（二十）——EMD, LSA, HMM

机器学习（二十）——EMD, LSA, HMM

原创 2017-06-12 10:10:37 · 3895 阅读 · 0 评论
机器学习（十九）——PageRank算法, KNN, loss function详解

机器学习（十九）——PageRank算法, KNN, loss function详解

原创 2017-05-22 09:50:30 · 3115 阅读 · 0 评论
机器学习（十八）——关联规则挖掘

机器学习（十八）——关联规则挖掘

原创 2017-03-08 19:50:48 · 26709 阅读 · 1 评论
机器学习（十七）——决策树, 推荐系统进阶

机器学习（十七）——决策树, 推荐系统进阶

原创 2017-02-27 13:12:31 · 7149 阅读 · 2 评论
机器学习（十六）——隐式狄利克雷划分

机器学习（十六）——隐式狄利克雷划分

原创 2017-02-13 14:14:32 · 1848 阅读 · 0 评论
机器学习（十五）——loss function比较、独立成分分析

机器学习（十五）——loss function比较、独立成分分析

原创 2016-12-26 10:10:13 · 8248 阅读 · 0 评论
机器学习（十四）——协同过滤的ALS算法（2）、主成分分析

机器学习（十四）——协同过滤的ALS算法（2）、主成分分析

原创 2016-12-19 09:41:48 · 19903 阅读 · 3 评论
机器学习（十三）——机器学习中的矩阵方法（3）病态矩阵、协同过滤的ALS算法（1）

机器学习（十三）——机器学习中的矩阵方法（3）病态矩阵、协同过滤的ALS算法（1）

原创 2016-12-12 09:20:38 · 10299 阅读 · 3 评论
机器学习（十二）——机器学习中的矩阵方法（2）特征值和奇异值

机器学习（十二）——机器学习中的矩阵方法（2）特征值和奇异值

原创 2016-12-05 09:14:07 · 14698 阅读 · 0 评论
机器学习（十一）——机器学习中的矩阵方法（1）LU分解、QR分解

机器学习（十一）——机器学习中的矩阵方法（1）LU分解、QR分解

原创 2016-11-28 10:25:15 · 5719 阅读 · 0 评论
机器学习（十）——因子分析

机器学习（十）——因子分析

原创 2016-11-21 10:34:08 · 4548 阅读 · 0 评论
机器学习（九）——EM算法

机器学习（九）——EM算法

原创 2016-11-14 10:44:14 · 1353 阅读 · 0 评论
机器学习（八）——在线学习、K-Means算法、混合高斯模型和EM算法

机器学习（八）——在线学习、K-Means算法、混合高斯模型和EM算法

原创 2016-11-07 10:36:50 · 4292 阅读 · 0 评论
机器学习（七）——规则化和模型选择

机器学习（七）——规则化和模型选择

原创 2016-10-31 10:10:44 · 4329 阅读 · 1 评论
机器学习（六）——SVM（4）、学习理论

机器学习（六）——SVM（4）、学习理论

原创 2016-10-24 13:36:40 · 1038 阅读 · 0 评论
机器学习（五）——SVM（3）

机器学习（五）——SVM（3）

原创 2016-10-17 09:49:00 · 816 阅读 · 0 评论
机器学习（四）——SVM（2）

机器学习（四）——SVM（2）

原创 2016-10-08 10:00:18 · 1396 阅读 · 0 评论
机器学习（二十一）——Optimizer, 单分类SVM&多分类SVM, 时间序列分析

机器学习（二十一）——Optimizer, 单分类SVM&多分类SVM, 时间序列分析

原创 2017-06-19 10:01:46 · 17605 阅读 · 0 评论

机器学习

作者: antkillerfarm

机器学习（三十九）——博弈论（2）, Exploration & Exploitation

机器学习（三十八）——博弈论（1）

机器学习（三十七）——Integrating Learning and Planning（3）

机器学习（三十六）——Integrating Learning and Planning（2）

机器学习（三十五）——Actor-Critic, Integrating Learning and Planning（1）

机器学习（三十四）——策略梯度

机器学习（三十三）——价值函数的近似表示

机器学习（二十二）——推荐算法中的常用排序算法, Tri-training

机器学习（二十三）——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动

机器学习（二十四）——数据不平衡问题, 强化学习

机器学习（二十五）——强化学习（2）

机器学习（二十七）——Q-learning, 动态规划

机器学习（二十八）——Monte-Carlo

机器学习（二十九）——Temporal-Difference Learning

机器学习（三十）——Model-Free Control

机器学习（三十一）——Linear Discriminant Analysis

机器学习（三十二）——t-SNE, Adaboost

机器学习（一）——线性回归、分类与逻辑回归

机器学习（二）——广义线性模型、生成学习算法

机器学习（三）——朴素贝叶斯方法、SVM（1）

机器学习（二十）——EMD, LSA, HMM

机器学习（十九）——PageRank算法, KNN, loss function详解

机器学习（十八）——关联规则挖掘

机器学习（十七）——决策树, 推荐系统进阶

机器学习（十六）——隐式狄利克雷划分

机器学习（十五）——loss function比较、独立成分分析

机器学习（十四）——协同过滤的ALS算法（2）、主成分分析

机器学习（十三）——机器学习中的矩阵方法（3）病态矩阵、协同过滤的ALS算法（1）

机器学习（十二）——机器学习中的矩阵方法（2）特征值和奇异值

机器学习（十一）——机器学习中的矩阵方法（1）LU分解、QR分解

机器学习（十）——因子分析

机器学习（九）——EM算法

机器学习（八）——在线学习、K-Means算法、混合高斯模型和EM算法

机器学习（七）——规则化和模型选择

机器学习（六）——SVM（4）、学习理论

机器学习（五）——SVM（3）

机器学习（四）——SVM（2）

机器学习（二十一）——Optimizer, 单分类SVM&多分类SVM, 时间序列分析