![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ai
文章平均质量分 54
熊猫跳高
额,我手机号之前那个人也用csdn吧,其实我刚刚开始写csdn。
展开
-
GAE强化学习
当TD展开变长的时候,bias 下降,variance上升 GAE做了个tradeoff,把TD展开做了一个类似iterative deepening的过程,用lambda做一个几何序列加权。原创 2021-10-30 12:55:09 · 571 阅读 · 0 评论 -
无显卡本地运行katago围棋程序
拉了个katago gui,输的一塌糊涂,就捣鼓了一个显卡版本的。嗯,这回稳了。 (三者先后顺序很重要) 1.nb地址 找到SSH version iKataGo Client:下第一个链接 运行第一个cell后需要看到Congratulations! Now ikatago-server is running successfully, waiting for your requests ... 2.ikatago-client地址 装好、运行后需要看到GTP ready, beginning ma原创 2021-10-14 23:45:30 · 768 阅读 · 0 评论 -
MountainCar的关键——抵抗梯度消失
写了个Q学习小车上山,感觉不行。把Q表画出来,找找原因。代码链接 ... # q learning update # 其中q是q表,o是离散化的观察(400-900个值),a是三个动作,r是奖励,d是done # 1-d的意思是,如果done了,就不用后来的q表更新上一步q值 q[o][a]=q[o][a]+alpha*(r+(1-d)*gamma*max(q[o1])-q[o][a]) ... # 可视化q表的代码 def plot_q(self): q=np.a原创 2021-09-26 21:47:30 · 221 阅读 · 0 评论 -
ML2 - 决策树、随机森林、提升树、xgboost、AdaBoost
(话说写作是很好的复习方式) 决策树:最大化互信息 决策树应用了上一篇中的互信息,分割节点中元素的公式如下: 其中,父节点总是试图最大化互信息、降低子节点们的熵的和。 随机森林:很多决策树投票 随机并发上百个决策树,投票决定。非常鲁棒,非常实用,容易过拟合。 可参考sklearn扫参数。 提升树:对上一个决策树的误差回归 标题说清楚了,详细的话推荐这个。 通过一层层的回归,可以将一些复杂的事情一步步简化。wiki首页说这东西有的时候还比随机森林好。 xgboost:打鸡血的增强树 在提升树基础上用泰勒展开原创 2021-09-10 17:10:28 · 94 阅读 · 0 评论 -
ML1 - 熵、信息、交叉熵、KL散度、log-likelihood、互信息
(截图来自英文维基) 单一事件的熵:−p∗log(p)-p*log(p)−p∗log(p) 假设p=1/2,-log(p)=log(2); 假设q=1/1024,-log(q)=log(1024); 根据对数公式,有log(1024)/log(2)=10; 这个运算可以理解为:构成10次抛硬币结果都为面这个事件的,是10个事件: 第一次结果为面 第二次结果为面 …… p是事件的概率,-log(p)是事件发生时的信息量,两者相乘得到事件的信息量。 所以香农用对数表示信息。 熵:H(p)=∑p−p∗log(原创 2021-09-10 16:28:43 · 543 阅读 · 0 评论