自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 问答 (1)
  • 收藏
  • 关注

原创 css---

代码】css-文本内容大写以及首字母大写。

2022-08-12 15:26:09 115 1

原创 demo0812模拟红包界面

代码】demo0812模拟红包界面。

2022-08-12 11:47:55 349

转载 前端-异步编程

javaScript 的异步JS是单线程,代码是从上往下依次执行的视频地址异步编程同步模式与异步模式异步编程的几种方式promise 异步方案Async/Await同步执行过程:代码从上往下依次进栈出栈。直至调用栈被清空,整个代码运行结束。调用栈,函数是调用执行的。入栈出栈的形式异步执行模式:Event loop(事件轮询)当全局调用栈空了以后,就会去队列里面找有没有任务需要执行,如果此时队列里面有任务,紧接着该任务会入调用栈执行,执行,并出栈。等待当前本轮任务全部执行完毕,Ev

2021-12-16 21:23:44 125

原创 Endnote20补充参考文献没有更新

2021-11-08 10:22:50 1993 2

原创 将类别标签转换为one-hot形式

y = pd.get_dummies(data[‘data’]).values

2020-09-11 10:04:50 648

转载 jupyter 添加虚拟环境

Jupyter 添加虚拟环境

2020-07-25 21:38:46 145

转载 DQN

将神经网络与Q-learning结合,避免在庞大state的情况建立Q表。DQNDQN中包含两个神经网络target-net(训练q-target), eval-net(训练q-eval).利用 eval-net 训练参数然后更新 target-net 参数。Double DQN为解决Q现实Qmax()造成过估问题Q_eval (Q估计中的), Q_next (Q现实中的).原本:Q_next = max(Q_next(s’, a_all))修改: Q_next = Q_next(s’,

2020-07-11 23:01:34 170

原创 Sarsa

Sarsa 作为一种 on-policy 与 Q-learning 相同之处在于也采用类似Q表形式,不同之处在于 Q-learning是对action值估计,但是不一定会选择该动作。 而Sarsa 的工作方式为在当前state 决定好对应的 action ;并且下一个state 的action 也做好决定Sarsa更新方式Q(s1,a2)现实 = R+ r*Q(s2,a2) r为衰减值Q(s1,a2)估计 = Q(s1,a2)新的Q(s1,a2) = 老Q(s1,a2) + alpha[R+

2020-07-11 22:19:06 152

原创 Q-learning

Q-learning (value-based off-policy)Q-learning 的关键在于建立 Q表, 例如在一个 Observation s1下对应两个action,分别为action1 和 action2 。对应Q值 Q(s1,a1), Q(s1,a2)。选取较大值进入下一个状态s2Q-learning更新假如我们在上一步选取了a2,那么Q(s1,a2)现实 = R+ rQMax(s2) r为衰减值Q(s1,a2)估计 = Q(s1,a2)新的Q(s1,a2)

2020-07-11 22:05:58 96

转载 交叉熵(cross entropy)

交叉熵给定两个概率分布:p(理想结果即正确标签向量)和q(神经网络输出结果即经过softmax转换后的结果向量),则通过q来表示p的交叉熵为:H(p,q)=−∑xp(x)logq(x)注意:既然p和q都是一种概率分布,那么对于任意的x,应该属于[0,1]并且所有概率和为1∀xp(X=x)ϵ[0,1]且∑xp(X=x)=1交叉熵刻画的是通过概率分布q来表达概率分布p的困难程度,其中p是正确答案,q是预测值,也就是交叉熵值越小,两个概率分布越接近转载于:关于交叉熵(cross entropy),你了

2020-07-11 14:26:30 571

原创 softmax

softmax函数softmax函数,又称归一化指数函数。是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。

2020-07-11 14:21:50 154

原创 强化学习(参考于李宏毅教授课程以及莫烦教程)

强化学习开始强化学习的几个因素Actor 智能体state 状态action 动作reward 奖励Enviroment (state ;action )给定目标,让Actor能够自己学习。怎样学习Actor通过不断地尝试,当做出一个action时会得到相应的reward目标 让Total reward值最大添加因素:policy 策略整个行走过程 寻找最优策略怎样寻找最优策略提出状态价值函数 V(S)动作价值函数 Q(s,a)...

2020-07-03 17:22:26 166

原创 解决Better-scroll导致事件失效

解决better-scroll导致事件失效

2019-10-18 16:26:18 291

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除