- 博客(2)
- 收藏
- 关注
原创 多智能体时代的降临
多智能体强化学习第一篇—Deep Q-learning Q-learning 算法 强化学习问题一般以马尔可夫过程为问题背景,将问题建模为(S,A,P,r,γS,A,P,r,\gammaS,A,P,r,γ) 形式,其中SSS为状态空间,AAA为动作空间,PPP为状态转移函数,rrr为收益函数。agent通过在某个状态选择某个动作与环境进行交互,使得环境发生动态演变,agent可以获取相应的收益。强化学习问题的目标就是找到一组最优的动作序列,使得agent得到的最终收益最大。 ...
2021-09-25 20:54:29 212
原创 非监督方法——聚类方法
非监督方法——聚类方法 定义:聚类方法是针对给定的样本,依据它们特征的相似度或者距离,将其归并到若干个“类”或者“簇”中。 一.聚类的基本概念 假设有n个样本,每个样本由m个属性的特征向量组成,样本集合表示为 X=[xij]m×n=[x11x12…x1nx21x22…x2n…………xm1xm2…xmn]X=[x_{ij}]_{m×n}=\begin{bmatrix} x11&x12&…&x1n\\ x21&x22&…&x2n\\…&…&…&am
2020-10-28 21:10:50 1096
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人