悬崖长出花-CSDN博客

原创 css---

代码】css-文本内容大写以及首字母大写。

2022-08-12 15:26:09 115 1

原创 demo0812模拟红包界面

代码】demo0812模拟红包界面。

2022-08-12 11:47:55 349

javaScript 的异步JS是单线程，代码是从上往下依次执行的视频地址异步编程同步模式与异步模式异步编程的几种方式promise 异步方案Async/Await同步执行过程：代码从上往下依次进栈出栈。直至调用栈被清空，整个代码运行结束。调用栈，函数是调用执行的。入栈出栈的形式异步执行模式：Event loop(事件轮询)当全局调用栈空了以后，就会去队列里面找有没有任务需要执行，如果此时队列里面有任务，紧接着该任务会入调用栈执行，执行，并出栈。等待当前本轮任务全部执行完毕，Ev

2021-12-16 21:23:44 125

原创 Endnote20补充参考文献没有更新

2021-11-08 10:22:50 1993 2

原创将类别标签转换为one-hot形式

y = pd.get_dummies(data[‘data’]).values

2020-09-11 10:04:50 648

转载 jupyter 添加虚拟环境

Jupyter 添加虚拟环境

2020-07-25 21:38:46 145

转载 DQN

将神经网络与Q-learning结合，避免在庞大state的情况建立Q表。DQNDQN中包含两个神经网络target-net(训练q-target), eval-net(训练q-eval).利用 eval-net 训练参数然后更新 target-net 参数。Double DQN为解决Q现实Qmax()造成过估问题Q_eval (Q估计中的), Q_next (Q现实中的).原本：Q_next = max(Q_next(s’, a_all))修改： Q_next = Q_next(s’,

2020-07-11 23:01:34 170

原创 Sarsa

Sarsa 作为一种 on-policy 与 Q-learning 相同之处在于也采用类似Q表形式，不同之处在于 Q-learning是对action值估计，但是不一定会选择该动作。而Sarsa 的工作方式为在当前state 决定好对应的 action ；并且下一个state 的action 也做好决定Sarsa更新方式Q(s1,a2)现实 = R+ r*Q(s2，a2) r为衰减值Q(s1,a2)估计 = Q(s1,a2)新的Q(s1,a2) = 老Q(s1,a2) + alpha[R+

2020-07-11 22:19:06 152

原创 Q-learning

Q-learning （value-based off-policy）Q-learning 的关键在于建立 Q表，例如在一个 Observation s1下对应两个action，分别为action1 和 action2 。对应Q值 Q(s1,a1), Q(s1,a2)。选取较大值进入下一个状态s2Q-learning更新假如我们在上一步选取了a2,那么Q(s1,a2)现实 = R+ rQMax(s2) r为衰减值Q(s1,a2)估计 = Q(s1,a2)新的Q(s1,a2)

2020-07-11 22:05:58 96

转载交叉熵（cross entropy）

交叉熵给定两个概率分布：p（理想结果即正确标签向量）和q（神经网络输出结果即经过softmax转换后的结果向量），则通过q来表示p的交叉熵为：H(p,q)=−∑xp(x)logq(x)注意：既然p和q都是一种概率分布，那么对于任意的x，应该属于[0,1]并且所有概率和为1∀xp(X=x)ϵ[0,1]且∑xp(X=x)=1交叉熵刻画的是通过概率分布q来表达概率分布p的困难程度，其中p是正确答案，q是预测值，也就是交叉熵值越小，两个概率分布越接近转载于：关于交叉熵（cross entropy），你了

2020-07-11 14:26:30 571

原创 softmax

softmax函数softmax函数，又称归一化指数函数。是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。

2020-07-11 14:21:50 154

原创强化学习(参考于李宏毅教授课程以及莫烦教程)

强化学习开始强化学习的几个因素Actor 智能体state 状态action 动作reward 奖励Enviroment (state ；action )给定目标，让Actor能够自己学习。怎样学习Actor通过不断地尝试，当做出一个action时会得到相应的reward目标让Total reward值最大添加因素：policy 策略整个行走过程寻找最优策略怎样寻找最优策略提出状态价值函数 V(S)动作价值函数 Q(s,a)...

2020-07-03 17:22:26 166

原创解决Better-scroll导致事件失效

解决better-scroll导致事件失效

2019-10-18 16:26:18 291

KKKKu1977的博客