Scc_hy
码龄7年
关注
提问 私信
  • 博客:398,953
    社区:146
    动态:2
    399,101
    总访问量
  • 161
    原创
  • 9,382
    排名
  • 324
    粉丝
  • 3
    铁粉
  • 学习成就

个人简介:不断进取的攻城狮

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-01-30
博客简介:

大道至简

博客描述:
深度学习、强化学习
查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,628
    当月
    16
个人成就
  • 获得412次点赞
  • 内容获得151次评论
  • 获得1,501次收藏
  • 代码片获得3,762次分享
创作历程
  • 6篇
    2024年
  • 16篇
    2023年
  • 24篇
    2022年
  • 31篇
    2021年
  • 24篇
    2020年
  • 21篇
    2019年
  • 50篇
    2018年
成就勋章
TA的专栏
  • 强化学习
    25篇
  • 笔记
    9篇
  • 机器学习
    36篇
  • 数据结构
    4篇
  • 数学与统计
    12篇
  • 深度学习
    20篇
  • 大数据
    4篇
  • 其他语言
    9篇
  • Python_应用回归分析
    3篇
  • 杂谈
    10篇
  • MNIST
    5篇
  • sql基础
    13篇
  • Python基础
    14篇
  • 基础算法
    8篇
兴趣领域 设置
  • 人工智能
    数据挖掘人工智能深度学习语言模型bertnlp迁移学习分类
  • 软件工程
    性能优化
  • 数学
    线性代数概率论傅立叶分析
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

183人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

强化学习_06_pytorch-PPO2实践(ALE/Breakout-v5)

强化学习算法PPO2训练Atari 打砖块游戏
原创
发布博客 2024.11.07 ·
463 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

深度学习_GPT2Block详解(casual attention)

NewGELUActivation 它是高斯误差线性单元(Gaussian Error Linear Unit,简称 GELU)的一种变体。GELU 激活函数在近年来的深度学习模型中越来越受欢迎,尤其是在自然语言处理(NLP)领域,如 BERT 和 GPT 等模型中。GELU 激活函数的数学定义是输入值 x 乘以标准正态分布的累积分布函数(CDF)在该点的值。casual attention: 对原始attn进行mask。经典的preNorm TFDecoder架构。
原创
发布博客 2024.09.12 ·
948 阅读 ·
30 点赞 ·
0 评论 ·
10 收藏

强化学习_06_pytorch-PPO2实践(Humanoid-v4)

PPO2优化:1) Value Function Loss Clipping;2)batch adv normalize;3)共用一个优化器;4)loss累和;5)特征权重初始化;6)向量环境SyncVectorEnv 及 wrapper技巧
原创
发布博客 2024.05.27 ·
994 阅读 ·
30 点赞 ·
0 评论 ·
16 收藏

[ deepSpeed ] 单机单卡本地运行 & Docker运行

本文笔者基于官方示例进行本地构建和Docker构建运行示例(下列代码中均是踩坑后可执行的代码,尤其是Docker部分), 全部code可以看。
原创
发布博客 2024.05.11 ·
1556 阅读 ·
11 点赞 ·
1 评论 ·
18 收藏

强化学习_06_pytorch-PPO实践(Hopper-v4)

针对之前的PPO做了主要以下优化:1. `batch_normalize`: 在`mini_batch` 函数中进行adv的normalize, 加速模型对adv的学习2. `policyNet`采用`beta`分布(0~1): 同时增加MaxMinScale 将beta分布产出值转换到action的分布空间3. 收集多个`episode`的数据,依次计算adv,后合并到一个dataloader中进行遍历:加速模型收敛
原创
发布博客 2024.02.28 ·
739 阅读 ·
7 点赞 ·
0 评论 ·
10 收藏

LLM_InterLM-Demo学习

在多项视觉语言大模型的主流评测上均取得了最佳性能,包括MME Benchmark (英文评测), MMBench (英文评测), Seed-Bench (英文评测), CCBench(中文评测), MMBench-CN (中文评测).模型理解题意生成解此题的 Python 代码,Lagent 调度送入 Python 代码解释器求出该问题的解。设计了高效的训练策略,为模型注入海量的多模态概念和知识数据,赋予其强大的图文理解和对话能力。的封装,同时通过ssh将端口映射到本地,资源占用的时服务器的资源。
原创
发布博客 2024.01.08 ·
1099 阅读 ·
14 点赞 ·
0 评论 ·
24 收藏

强化学习_06_pytorch-TD3实践(CarRacing-v2)

TD3征服CarRacing-v2环境,对环境的调整已经actor-critic网络构建经验分享
原创
发布博客 2023.12.24 ·
2468 阅读 ·
29 点赞 ·
1 评论 ·
26 收藏

【论文解读】ICLR2023 TimesNet: TEMPORAL 2D-VARIATION MODELING FOR GENERAL TIME SERIES ANALYSIS

实时序列通常具有多个周期性,如天气观测的日变化和年变化,电力消耗的周变化和季度变化每个时间点的变化不仅受其相邻区域的时间模式(周期内变化)的影响,而且与相邻周期的变化(周期间变化)高度相关。对于没有明确周期性的时间序列,其变化将以周期内变化为主,相当于具有无限周期长度的时间序列。(这类数据理论上很难进行长期预测)受多周期性和周期内及周期间复杂相互作用的启发,我们找到了一种时间变化建模的模块化方法。笔者思考:没有考虑到特定的人为因素的影响。
原创
发布博客 2023.11.15 ·
2327 阅读 ·
4 点赞 ·
7 评论 ·
20 收藏

【论文解读】元学习:MAML

元学习的目标是在各种学习任务上训练模型,这样它就可以只使用少量的训练样本来解决新任务。论文所提出的。该算法与任何用梯度下降训练的模型兼容,适用于各种学习问题,包括分类、回归和强化学习。论文中表明,该算法在基准上达到了SOTA的性能,在上也产出了良好的结果,。
原创
发布博客 2023.09.11 ·
869 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

【论文解读】终生学习LLL-正则化方法:Memory Aware Synapses

AMS可以在无监督和在线学习中计算网络参数的重要性。给与新数据可以计算出网络参数的特征重要性,基于模型数据的L2范数的平方,其参数的梯度反应新数据预测的敏感性,将其作为权重,让其保守变化,提高模型的泛化能力和减少模型的复杂度。首次将,这可能会因测试条件而异。
原创
发布博客 2023.07.22 ·
436 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Linux-gym mujoco安装

在ubuntu22.4 python3.10的环境中安装mujoco 折腾了半天,记录下。
原创
发布博客 2023.07.19 ·
822 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

【论文解读】2017 STGCN: Spatio-Temporal Graph Convolutional Networks

使用历史速度数据预测未来时间的速度。同时用于序列学习的RNN(GRU、LSTM等)网络需要迭代训练,它引入了逐步累积的误差,并且RNN模型较难训练。为了解决以上问题,我们提出了新颖的深度学习框架STGCN,用于交通预测。
原创
发布博客 2023.07.19 ·
1070 阅读 ·
2 点赞 ·
1 评论 ·
7 收藏

机器学习_预测概率校准

我们在建模时通常根据准确性或准确性来评估其预测模型,但几乎不会问自己:“我的模型能够预测实际概率吗?但是,从商业的角度来看,准确的概率估计是非常有价值的(准确的概率估计有时甚至比好的精度更有价值)。来看一个例子。AB两个模型的AUC一样。但是根据模型A,你可以通过推荐普通马克杯来最大化预期的利润,然而根据模型B,小猫马克杯可以最大化预期的利润。在像这样的现实应用中,搞清楚哪种模型能够估算出更好的概率是至关重要的事情。
原创
发布博客 2023.06.14 ·
3173 阅读 ·
5 点赞 ·
4 评论 ·
25 收藏

LLM_文本生成评估指标

一个单词只计算它在引用中出现的次数。Example: 计算 ROUGE1。可以看出包内的计算原理同上述。可以看出包内的计算原理同上述。Example: 计算。
原创
发布博客 2023.05.16 ·
1047 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

强化学习_06_pytorch-TD3实践(BipedalWalkerHardcore-v3)

DDPG的critic会高估, 从而导致actor策略失败。TD3是增加了三个关键技巧优化DDPG。经过优化后的TD3(Twin Dalayed DDPG 双延迟深度确定性策略梯度算法)适合于具有高维连续动作空间的任务。
原创
发布博客 2023.05.07 ·
1856 阅读 ·
2 点赞 ·
6 评论 ·
12 收藏

LLM__llama-7B模型试验

llama模型已经开源很久了,所以拿做小的模型做了个简单尝试。
原创
发布博客 2023.04.19 ·
4300 阅读 ·
4 点赞 ·
7 评论 ·
6 收藏

深度学习_Learning Rate Scheduling

我们在训练模型时学习率的设置非常重要。我们可以通过学习率时间表()有效地管理准确性。
原创
发布博客 2023.04.05 ·
1478 阅读 ·
2 点赞 ·
1 评论 ·
3 收藏

数据结构_哈夫曼树(python实现)

哈夫曼树是一种重要的数据结构,用于压缩和编码数据。它由经典的数学家和计算机科学家大卫哈夫曼在20世纪50年代发明。哈夫曼树的目的是为了在编码和解码数据中,尽可能地减少所需的比特数。换句话说,它可以将大量数据压缩为在传输过程中所需的最小比特数。在NLP领域的词向量开篇制作Word2Vec中用到了一种softmax优化方法——层次softmax,就是将词频编码成哈夫曼树的形式,然后,(以skip-gram为例)在样本[v, w]进入模型前,将周围词w,基于哈夫曼树映射成从根到叶路径两个方向路径,最终组成。
原创
发布博客 2023.03.20 ·
1481 阅读 ·
0 点赞 ·
0 评论 ·
15 收藏

数据结构_图优化-最小费用最大流MCMF(python解)

线性规划问题有一个有趣的特性,即所有求极大的问题都有一个与其匹配的求极小的线性规划问题。我们通过求解一个问题的对偶问题,再加以转化就可以得到原始问题的解。
原创
发布博客 2023.03.08 ·
1289 阅读 ·
2 点赞 ·
4 评论 ·
11 收藏

数据结构_栈及栈的应用非递归快速排序

O(1)O(n)
原创
发布博客 2023.02.24 ·
490 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多