南不难-CSDN博客

原创多智能体时代的降临

多智能体强化学习第一篇—Deep Q-learningQ-learning 算法强化学习问题一般以马尔可夫过程为问题背景，将问题建模为(S,A,P,r,γS,A,P,r,\gammaS,A,P,r,γ) 形式，其中SSS为状态空间，AAA为动作空间，PPP为状态转移函数，rrr为收益函数。agent通过在某个状态选择某个动作与环境进行交互，使得环境发生动态演变，agent可以获取相应的收益。强化学习问题的目标就是找到一组最优的动作序列，使得agent得到的最终收益最大。...

2021-09-25 20:54:29 212

原创非监督方法——聚类方法

非监督方法——聚类方法定义：聚类方法是针对给定的样本，依据它们特征的相似度或者距离，将其归并到若干个“类”或者“簇”中。一.聚类的基本概念假设有n个样本，每个样本由m个属性的特征向量组成，样本集合表示为X=[xij]m×n=[x11x12…x1nx21x22…x2n…………xm1xm2…xmn]X=[x_{ij}]_{m×n}=\begin{bmatrix} x11&x12&…&x1n\\ x21&x22&…&x2n\\…&…&…&am

2020-10-28 21:10:50 1097

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 多智能体时代的降临

原创 非监督方法——聚类方法

空空如也

空空如也

原创多智能体时代的降临

原创非监督方法——聚类方法