mex_wayne-CSDN博客

原创基础学习：（12）flow matching

本文严谨的推到了flow matching的一些细节

2025-08-01 11:55:57 1292

原创 LeRobot SO-ARM100 学习笔记(2) diffusion module

对 lerobot 中的 diffusion policy 进行基本的代码阅读

2025-07-21 15:24:56 1134

原创 LeRobot SO-ARM100 学习笔记(1) ACT module

lerobot aloha ACT transformer

2025-07-08 14:14:51 1342

原创 OpenVLA (3) 再探

整理用于 evaluate, fine tune, lora , 以及不同平台如何兼容数据. 如何运行以及我踩的坑都在我的仓库页内有记录, 也欢迎大家讨论: https://github.com/MexWayne/mexwayne_openvla。

2025-07-02 14:21:29 762

原创 RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

RDT-1B这里有个端侧模型,有很多创新点, 且主要是开源, 所以这里进行学习和探究。

2025-05-19 00:44:34 1121

原创 OpenVLA (2) 机器人环境和数据

按照笔者之前的行业经验, 数据集的整理是非常重要的, 因此笔者这里增加原文中出现的几个数据集和环境的学习skill 例如:抓取(pick), 放置(place), 推动(pushing), 清扫(sweeping), 堆叠(stacking), 折叠(folding)trajectories 就是action集合:其中数据集合结构图如下:图像分辨率：640×480。

2025-05-13 14:46:57 2242

原创基础学习：（11）LoRA

很多调试模型都会用到LoRA (LoRA: Low-Rank Adaptation of Large Language Models)进行微调, 虽然 LoRA效果不如fine tunning, 但是在业内仍然很重要, 因此对它展开学习工作.

2025-05-12 11:24:30 746

原创 OpenVLA (1) 环境配置与代码框架

OpenVLA 基础环境配置和工作复现

2025-05-03 20:53:18 1597 2

原创基础学习：（9）vit -- vision transformer 和其变体调研

transformer 是一条新的思路, 可以在 paper with code 上看到 vit 的火爆程度其中 vit相关变体网络, 在 paper with code 上累计大概2000篇论文,如果一次都看没有意义,因此我这里统计了前40 人气论文.

2025-04-27 19:31:39 1166

原创基础学习：（7）nanoGPT 剩下的细节

在基础学习：（6）中, 在运行和训练代码基础上,向代码结构进行了挖掘.并且按照训练和运行过程, 扣了一些细节.但是和周围朋友(感谢 suntianlong)讨论中发现还有不会的地方.因此打算进一步深挖. 接上一个链接:https://blog.csdn.net/mikhailbran/article/details/147217336?spm=1001.2014.3001.5501

2025-04-18 00:50:40 1300

原创基础学习：（6）nanoGPT

看到一个很火的学习开源项目 nano gpt，换换思维，学习下nano gpt这是我个人仓库,里面很多内容已经build 好,如果有不对的也欢迎大家指正.我个人非常喜欢<斗破苍穹>, 因此用了土豆老师的斗破苍穹的小说作为训练样本(非商业用途),如有不敬书迷给你磕一个.

2025-04-16 17:07:48 1340 2

原创基础学习(4): Batch Norm / Layer Norm / Instance Norm / Group Norm /RMS Norm

batch norm, layer norm, instance norm, group norm

2025-04-15 16:35:47 942 1

原创强化学习课程：stanford_cs234 学习笔记（4）Lecture 2: Making Sequences of Good Decisions Given a Model of the Worl

徒手推导了占用度量的过程

2025-04-14 00:12:05 1067

原创强化学习课程：stanford_cs234 学习笔记（3）introduction to RL

强化学习课程：stanford_cs234 学习笔记（3）introduction to RL ——马尔可夫决策过程和马尔可夫奖励过程

2025-04-05 22:44:55 1133

原创强化学习课程：stanford_cs234 学习笔记（2）introduction to RL

cs234 第一节第二部分

2025-03-30 23:51:43 802

原创强化学习课程：stanford_cs234 学习笔记（1）introduction to RL

cs234 第一节

2025-03-21 01:56:58 1331

原创 NLP-transformer学习：（8）trainer 使用方法

11月工作996压力较大，任务完成后，目前休息了一个月，2025年新的一天继续开始补基础。本章节是单独的 NLP-transformer学习章节，主要实践了evaluate。同时，最近将学习代码传到：https://github.com/MexWayne/mexwayne_transformers-code，作者的代码版本有些细节我发现到目前不能完全行的通，为了尊重原作者，我这里保持了大部分的内容，并标明了来源，欢迎大家一起学习。

2025-01-01 23:33:53 748

原创基础学习：（5）不同卷积：transposed convolution，deconvolution，dilated convolution

本文言简意赅的说明了反卷积（deconvlution），卷积（convolution），转置卷积（transposed convolution），空洞卷积（dilated convolution）的区别。

2024-12-12 17:27:23 1095

原创 NLP-transformer学习：（7）evaluate实践

hugging face 的 evaluate 功能实践

2024-09-22 21:45:03 808

原创 NLP-transformer学习：（6）dataset 加载与调用

huggingface 的 datasets 学习

2024-09-09 00:11:00 1031

原创 # NLP-transformer学习：（5）Bert 实战

是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP（Natural Language Processing，自然语言处理）任务中获得了新的state-of-the-art的结果推荐链接：其实说白了就是 transformer可以进行堆叠。

2024-08-26 01:14:53 1034

原创 flash attention: Fast and Memory-Efficient Exact Attention with IO-Awareness

目前transformer 相关应用非常广泛，因此分享一篇关于flash attention的文章。这里为什么先分享flash attention？首先，之前的 attention优化都是基于计算和稀疏性，这篇文章直接从硬件构架角度思考，减少硬件的开销。其次，本文的效果好，直接从N2N^2N2的复杂度降为N，在不改变attention 结构的情下加速显然，甚至因为能增加输入的长度，使得效果有提升，所以在这里做一篇分享，欢迎交流。

2024-07-18 23:08:35 1127 1

原创 NLP-transformer学习：（4）transformer 的 model

transformer 的结构为编码器（encoder） + 解码器（decoder）。encoder 接收输入，decoder 接收encoder 的输出。这里祭出transformer 经典结构其中的Multi-Head 就是著名的多头注意力机制，这个主力机制可以根据上下文有选择性的选择内容。对transformer 的讲解很多，我这里就不多赘述，不过笔者也会写一篇关于论文的阅读博文。

2024-07-05 03:51:30 976

原创 NLP-transformer学习：（3）transformer的 tokenizer

本章节主要是对 transformer 里的tokenizer 进行学习，tokenizer 比较简单，欢迎交流

2024-07-01 01:15:35 1417

原创 NLP-transformer学习：（2）transformer的 pipeline

本文主要讲述了如何使用transformer 里的很多任务（pipeline），我们用这些任务可做文本识别，文本翻译和视觉目标检测等等，并且写了实战用力和测试结果

2024-06-30 01:56:41 1028

原创 NLP-transformer学习：（1）transformer基础

transformer 基础学习

2024-06-29 22:24:24 616

原创视频帧插学习（三）：ema-vfi代码拆解和分析

video interp EMA-VFI

2024-06-02 22:48:42 534 2

原创视频帧插学习（二）：EMA-VFI

笔者在视频帧插方面做过一个统计，该表统计了目前不同测试集下的sota，按照测试集分类大概有8个sota如下表。Name表示网络名称。becnh mark表示在哪些bench mark 上都是sota。win over中数字表示都赢了多少个网络，也能反映这大家在这个数据集上的热度，括号中表示的不如当前网络但是很有名甚至也出现在当前表格中。starts表示github 上有多少人关注，其实这样能鉴定论文的有效性和是否方便following因为有些文章代码有bug或者没公开。

2024-03-21 14:47:26 3053 14

原创视频帧插学习（一）：RIFE：Real-Time Intermediate Flow Estimation for Video Frame Interpolation

最近正在看视频帧插论文。其中《Real-Time Intermediate Flow Estimation for Video Frame Interpolation》我认为思路较好。为什么好？因为摒弃了之前计计算光流的带来的halo弊端：求t 帧和 1-t帧的光流，本文是直接估计中间帧光流，因此没有了这样的弊端，因此从方法论上就是赢过了此论文之前的论文。还有一点是本论文在训练方面提供的细节很多，是个货真价实的论文。论文地址：https://arxiv.org/pdf/2011.06294.pdf。

2024-02-23 12:18:36 3981

mikhailbran的博客