- 博客(50)
- 资源 (9)
- 收藏
- 关注
原创 【零基础强化学习】3个模块教你跑通基于DQN的FlappyBird
3个模块教你跑通基于DQN的FlappyBird代码全部亲自跑通,你懂的!
2022-01-13 03:02:42 4875 20
原创 【java入门系列二】java基础
java需要严格考虑变量类型,包括类型的自动转换与强制转换(int)每天保持思考、保持进步,跬步至千里!Fighting!😎
2023-01-04 00:28:26 256
原创 【机器学习】kaggle比赛大杀器——模型融合
之前每次打比赛都只做了特征工程和调参两部分,最后的模型融合部分也是非常重要的,一起来看看吧!
2022-05-03 01:56:37 1909 4
原创 【零基础强化学习】 基于tkinter搭建gridworld强化学习环境
【零基础强化学习】 基于tkinter搭建gridworld强化学习环境状态、奖励、done都可以自己设置噢!有问题的小伙伴可以与我联系交流!
2022-04-16 11:46:30 2286 4
原创 【零基础强化学习】100行代码跑通基于DDPG的倒立摆实验
【零基础强化学习】100行代码跑通基于DDPG的倒立摆实验超参已经调好,直接运行即可看到训练效果,有需要交流的同学可以加我留言噢!
2022-04-15 21:43:32 845 3
原创 【零基础强化学习】基于DQN的highway自动驾驶
基于DQN的highway车道保持,代码可以直接跑通,但是效果不好需要调参,有需要的小伙伴多多加我交流呀!!
2022-04-12 00:05:45 2256 15
原创 【机器学习损失函数】 交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别?
机器学习损失函数🤔交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别?知其然也要知其所以然,一起来学习吧!
2022-03-16 21:19:17 1320 1
原创 【零基础机器学习】机器学习中的正则项(图文详解)
- 在机器学习中我们时常会遇到`模型过拟合`的问题,这是由于我们所得到的的模型复杂度过大,过于完美地拟合了训练数据,也就导致模型在预测训练数据时效果很好而预测新数据时效果很差。解决过拟合问题的一个典型方法即是:正则化
2022-01-25 21:28:19 10541 6
原创 【python学习笔记】 可变对象和不可变对象详解
复习一下python 基础数据结构,大家一起多多交流,互相学习啊!Python在heap(堆:程序员自己分配释放)中分配的对象分成两类:可变对象和不可变对象。所谓可变对象是指,对象的内容可变,而不可变对象是指对象内容不可变python中,万物皆对象
2022-01-23 00:03:59 2074 5
原创 【算法与数据结构】堆与栈的联系区别(多角度详解)
- 堆(Heap)与栈(Stack)是开发人员必须面对的两个概念,在理解这两个概念时,需要放到具体的场景下,因为不同场景下,堆与栈代表不同的含义。一般情况下,有两层含义:(1)程序内存布局场景下,堆与栈表示两种`内存管理`(2)数据结构场景下,堆与栈表示两种常用的`数据结构`
2022-01-17 17:54:33 5255 7
原创 【二叉树算法】二叉树DFS与BFS(python实现)
树的遍历是树的一种重要的运算。所谓遍历是指对树中所有节点的信息的访问。即依次对树中每个结点访问一次且仅访问一次。我们把这种对所有节点的访问称为遍历(traveral)。那么树的两种重要的遍历模式是深度优先遍历和广度优先遍历,深度优先一般用递归,广度优先一般用队列。
2022-01-17 00:47:32 1385 3
原创 【零基础强化学习】 基于Closed-Form Policy Play BipedalWalker-v3
- 闭式解closed form solution)也叫解析解(analytical solution),就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题。(代码**只有测试**过程)
2022-01-16 23:40:46 1523
原创 【零基础强化学习】基于PPO训练gym的Acrobot机械臂
- Acrobot机器人系统包括两个关节和两个连杆,其中两个连杆之间的关节可以被致动。 最初,连杆是向下悬挂的,目标是将下部连杆的末端摆动到给定的高度。
2022-01-16 23:23:33 4399 10
原创 【零基础强化学习】教你跑通基于Q-learning的gym“Pong-v4‘”乒乓球对决
- Pong是起源于1972年美国的一款模拟两个人打乒乓球的游戏,近几年常用于测试强化学习算法的性能。这篇文章主要记录如何用DQN实现玩Atari游戏中的Pong,希望大家一起交流学习!
2022-01-16 02:32:53 5071 16
原创 【零基础强化学习】教你用Q-learning训练基于gym的火箭月球着陆器
- 需要小火箭能精确、平稳(缓慢)的降落在停机坪!代码亲手跑通,大概需要训练30分钟能达到基本目的!
2022-01-16 01:37:44 3031 4
原创 【零基础强化学习】教你训练基于SARSA的出租车调用
- Gym库的Taxi-v2环境实现了出租车调度问题的环境。导入环境后,可以用env.reset()来初始化环境,用env.step()来执行一步,用env.render()来显示当前局势。env.render()会打印出的局势图,其中乘客的位置、目的地会用彩色字母显示,出租车的位置会高亮显示。具体而言,如果乘客不在车上,乘客等待地点(位置)的字母会显示为蓝色。目的地所在的字母会显示为洋红色。如果乘客不在车上,出租车所在的位置会用黄色高亮;如果乘客在车上,出租车所在的位置会用绿色高亮。
2022-01-16 00:35:48 1890
原创 【Advances in Neural Information Processing Systems 34 pre-proceedings 】 NIPS2021会议
【Advances in Neural Information Processing Systems 34 pre-proceedings 】 NIPS2021会议
2022-01-14 14:12:39 4050 2
原创 【十大排序算法】计数排序
1. 统计原数组中每个值出现的次数2. 排序:遍历Count数组,对应位置的值出现多少次就往原数组写几个这个值- 当然,在对于数据比较大的时候我们可以通过相对映射,让(该值-min)后的数组加一,最后还原回去即可。
2022-01-13 23:46:28 2723 1
原创 【十大排序算法】归并排序
1. (拆分)将一段数组分为左序列和右序列,让他们两个分别有序,再将左序列细分为左序列和右序列,如此重复该步骤,直到细分到区间不存在或者只有一个数字为止2. (合并)将第一步得到的数字合并成有序区间
2022-01-13 23:41:14 2700
原创 【零基础强化学习】100行代码教你训练——基于SARSA的CliffWalking爬悬崖游戏
【零基础强化学习】100行代码教你训练——基于SARSA的CliffWalking爬悬崖游戏,sarsa下一步的Q对应的action是经过贪婪-探索的实际与环境交互的动作(==属于on-policy==),加了探索的动作会对环境中reward比较低的状态很敏感,所以实验结果**很胆小**!
2022-01-13 20:05:26 6845 7
原创 【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏
【零基础强化学习】100行代码教你训练——基于Q-learning的CliffWalking爬悬崖游戏,代码亲自跑通,一起交流学习呀q-learning下一步的Q对应的action是直接选取最大值,不是实际与环境交互的动作(==属于off-policy==),只选最大值的总动作意味着只关心高奖励的状态,低奖励影响不大,所以实验结果贴着障碍物走,**很大胆**!
2022-01-13 19:41:19 3452 2
原创 【零基础强化学习】100行代码教你实现基于DQN的gym车杆控制
【零基础强化学习】100行代码教你实现基于DQN的gym车杆控制,所有代码均亲自跑通,你懂的!????
2022-01-13 02:24:24 4263 7
原创 【零基础强化学习】200行代码教你实现基于Q-learning的迷宫找路
- 作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程,希望大家互相交流一起进步!????
2022-01-13 01:32:27 3787 4
原创 【零基础强化学习】100行代码教你实现基于DQN的gym登山车
【零基础强化学习】100行代码教你实现基于DQN的gym登山车,代码可直接跑通,包括模型搭建、训练、保存、测试!你懂的
2022-01-13 01:03:12 4564 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人