自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

进一寸有一寸的欢喜

如果用10年以上的时间坚持学习和分享某一领域,将会是怎么样喃? “一五计划":2018.06 ~2023.07 : 初步实现了在CV领域每月一篇技术总结。 “二五计划” (2023.07 ~2028.08):计划每周一篇博客,在小的领域出一个超过20篇的

  • 博客(179)
  • 资源 (2)
  • 收藏
  • 关注

原创 【论文目录】2013-2024年AI图像生成技术30篇+经典论文—— 图像生成Diffusion模型演化进程——扩散or自回归 ?

从2013-2024 图像生成,文生图经典论文目录

2025-01-20 16:52:51 1388

原创 【综述+LLMs+中文图书】国内团队大语言模型综述(截止2024.02)——A Survey of Large Language Models

大语言模型使用无标注语料库进行预训练,当模型大小达到一定数量,出现智能涌现,能够进行小模型不具备的能力:下文学习,在未经过特定任务微调的情况下能够理解并响应复杂指令**;以及对新任务的适应性,即基于给定的输入示例就能够推断出相应的输出模式

2024-03-25 18:11:14 2369

原创 【论文综述+多模态】腾讯发布的多模态大语言模型(MM-LLM)综述(2024.02)

多模态大语言模型:Multimodal Large Language ModelsMM-LLM =预训练单模态模型( 含LLMs) + 微调对齐所有模态 + 输出调整MM-LLMs 利用现成的预训练单模态基础模型,特别是强大的大型语言模型(LLMs), 作为认知核心,赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习(ICL)等可取特性在这一领域中,主要关注点是通过多模态预训练(MM PT, Pre-Training)+ 多模态指令调整。

2024-02-29 15:43:23 6840

原创 【MuJoCo仿真】开源SO100机械臂导入到仿真环境

so100导入到仿真环境,方便后续操作和仿真

2025-04-29 18:34:44 599

原创 【仿真】Ubuntu 22.04 安装MuJoCo 3.3.2

MuJoCo : Multi-Joint dynamics with Contact 表示:接触的多关节动力学。是一种免费的开源物理引擎,旨在促进机器人技术 robotics,生物力学 biomechanics,图形和动画以及需要快速准确模拟的其他领域的研发

2025-04-29 17:56:59 231

原创 【ROS2】 核心概念2——功能包package

ros2 pkg create 是ROS2中用于快速生成功能包(Package)的命令工具,通过参数配置可自动化生成包结构、元数据(package.xml)和构建规则(CMakeLists.txt),大幅提升开发效率。

2025-04-29 14:31:59 594

原创 【ROS2 】工作空间(workspace)——ROS2核心概念1

在ROS机器人开发中,我们针对机器人某些功能进行代码开始时,各种编写的代码、参数、脚本等文件,也需要放置在某一个文件夹里进行管理,这个文件夹在ROS系统中就叫做工作空间。

2025-04-28 12:52:20 805

原创 【ROS2】ROS开发环境配置——vscode和git

ROS机器人开发肯定离不开代码编写,基于git和vscode查看、编写、编译

2025-04-27 10:13:19 327

原创 【ROS2】机器人操作系统安装到Ubuntu22.04简介(手动)

ROS2: 第二代机器人操作系统,2022年5月底,迎来了ROS2第一个长期支持版——ROS2 Humble。 多机器人系统\跨平台\实时性

2025-04-23 14:33:57 431

原创 【Lerobot】加载本地数据LeRobotDataset数据、读取并解析parquet

so100采集数据后,数据格式解析

2025-04-16 16:13:49 373

原创 【lerobot】so100硬件简介——飞特Servo + 舵机驱动板模块

SO100舵机STS3215与舵机驱动板特性了解

2025-04-16 11:14:23 823

原创 【lerobot】3-开源SO-100 主从臂的舵机位置校正、遥控操作(ubuntu系统)

lerobot so-100装配完毕如何进行遥操作。

2025-04-14 18:20:55 606

原创 【机器人+VLA】25.03 GR00T N1:英伟达第一个开源的通用的人形机器人VLA模型

NVIDIA Isaac GR00T N1:全球首个开源且完全可定制的基础模型 ,该模型接受包括语言和图像在内的多模态输入,以在不同的环境中执行操作任务,可赋能通用人形机器人实现推理及各项技能。

2025-04-07 20:22:13 819

原创 【机器人+硬件】Zeroth Bot 美国开源最简人形机器人—— 负担得起(¥2535)端到端(SIM2REAL,RL)3D打印的 (包括硬件、SDK、 sim环境)基于视觉、强化学习走路、以及语音

Zeroth-01是一种开源端到端类人形机器人,起价为350美元,具有视觉,基于RL的步行和语音。特点带有开源机器人和仿真环境的SIM2REAL转移。深度RL的端到端控制。VLA:可推广视觉语言行动策略。负担能力:我们通过开源硬件和软件使机器人更加负担得起。

2025-03-11 11:22:37 1174

原创 【机器人+VLA】2406.OpenVLA: 开源的视觉–语言–动作模型用于训练通才机器人,An Open-Source Vision-Language-Action Model

OpenVLA 是一个开源的视觉–语言–动作模型,拥有 70亿参数(7B) ,通过在 97 万机器人示范片段(episodes)上微调(数据来源 Open X-Embodiment),为通才(generalist)机器人操作策略 (manipulation policies) 设置了新的技术水平

2025-03-06 10:10:14 2774

原创 【机器人+VLA】2410.Pi0_一种(开源)语言视觉控制的通用机器人——A Vision-Language-Action Flow Model for General Robot Control

介绍了 Physical Intelligence 公司开发通用机器人基础模型 π0 的成果及展望。当前 AI 在物理世界应用存在局限,该公司经八个月研发 π0 以迈向人工物理智能目标。π0 基于大规模数据训练,融合图像、文本与动作,能跨多种机器人执行任务并可微调适应复杂场景。其通过独特架构从机器人具身经验获取物理智能,在洗衣、清理餐桌、组装盒子等任务上表现优于其他模型。我们的通才机器人策略使用预先训练。

2025-02-24 18:41:16 485

原创 【机器人+模仿学习】Diffusion Policy: 通过行动扩散的视觉运动策略学习Visuomotor Policy Learning via Action Diffusion

扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法

2025-02-24 17:54:03 893

原创 【机器人】mobile-aloha:可移动可学习遥控操作机器人 Learning Bimanual Mobile Manipulation with Whole-Body Teleoperation

引入了一个低成本的移动操作系统,该系统是双手的,并支持全身远程操作。该系统的成本为 32k,包括板载功率和计算。左:用户远程操作以从冰箱中获取食物。右图:移动ALOHA可以通过模仿学习执行复杂的长期任务

2025-02-24 16:12:28 1112

原创 【机械臂】ACT Policy:使用低成本硬件学习细粒度的双手操作:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

使机械臂精细化操作,只需要不到2000元

2025-02-24 12:14:03 964

原创 【AI前沿+机器人】Helix:可多机器人协作、能拿起任何东西、整个人形上身控制的、可嵌入式低功耗GPU部署的、通用人形机器人控制的视觉-语言-动作(VLA)模型

Figure 发布 Helix 机器人视觉语言行动模型:•历史上第一个类人机器人上身的高速连续控制模型•可以两台机器人用一个模型控制协作完成任务•可以捡起任何东西,不管他是否原来就认识•历史上第一个在本地GPU运行的机器人模型

2025-02-23 22:06:28 997

原创 【FLUX微调+风格训练】从零免费训练自定义图像风格

免费风格微调的完整教程,基于(找图+清理筛选+打标+训练+推理验证

2025-02-20 18:38:27 361

原创 【DeepSeek-R1】满血版免费网页端使用(不卡顿,支持联网搜索)

卡顿支持联网搜索。

2025-02-18 18:39:44 4223

原创 【ollama安装】国内 linux 环境安装ollama

使用命令行前,请确保已经通过pip install modelscope 安装ModelScope。

2025-02-07 10:59:47 4159 1

原创 【DeepSeek-R1 +1.5B】2060显卡ollama本地部署+open-webui界面使用

deepseek-r1-1.5B本地部署, 仅需2G-3G显存

2025-02-06 18:28:41 2847

原创 【ComfyUI】python调用生图API,实现批量出图

官方给的示例:https://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/scrip

2025-01-23 18:25:12 2520 1

原创 【API】免费调用Qwen-vl2对图像打标

免费调用Qwen-vl2对图像打标

2025-01-13 15:18:35 1589

原创 【ComfyUI+风格】一次题词生成30种+的风格图(可扩展)

基于sdxl风格题词进行开发 (几乎使用所有文生图模型sd1.5 , sdxl ,hunyuan, flux)https://github.com/twri/sdxl_prompt_styler

2025-01-08 18:11:37 390

原创 2024年AI图像生成热门模型回顾

2024.01.04 阿里开源中文文字图像生成2024.01.15 小红书开源InstantID, 上传真人图片的生成ID一致的AI形象2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)2024.03.05 开源了SD3 (重点,因为有论文)2024.03.29 PixArt-Σ (sigma)华为诺亚方舟实验室开源英文4K 文生图模型2024.04 字节提出了视觉自回归文生图模型VAR (2024年某顶会最佳论文)

2025-01-06 18:37:42 1634

原创 【ComfyUI】错觉图片生成(远看李小龙,近看是糖果岩石,花,草,)

错觉图片生成——远看李小龙,近看纸张,花草岩石comfyui + control_v1p_sd15_qrcode_monster

2025-01-03 23:31:15 402

原创 【生活】冬天如何选口罩(医用口罩,N95, KN95还是KP95?带不带呼吸阀门?带不带活性炭?)

日常防护的话,医用口罩或者KN95口罩就可以啦。要是想长时间佩戴N95口罩的话也可以,但疫情防控期间在公共场所就别用带呼吸阀门的N95啦。在高风险环境(像医院、疫情防控期间),一定要选不带呼吸阀门的N95口罩哦。如果是在空气污染或者异味比较重的环境里,带有活性炭层的口罩就是不错的选择啦。

2025-01-02 23:00:21 926

原创 【杂谈+AI绘画】2D形象和场景生成在整体游戏设计中地位

AI如何在2D场景辅助在游戏中生产

2025-01-02 18:33:10 1204

原创 【ComfyUI + 自定义节点】图片叠加掩膜(mask)部分扣掉(变黑)

comfyui添加自定义节点将图片对应掩膜覆盖的区域替换为黑色

2024-12-27 18:15:19 1471

原创 【ComfyUI + 铅笔素描画风】艺术家DaTou发布了的彩色铅笔素描风格生成(真实感超强)

flux1+ 铅笔素描lora

2024-12-20 18:16:18 274

原创 【ComfyUI + 视频理解/反推题词】LLaVA-OneVision:单图、多图、视频任务理解(caption) (2024.08开源)

LLaVA-OneVision是一个开放的大型多模态模型(LMMs)。能同时理解图片和视频。在qwen2 + 多层感知机 + google/siglip-so400m-patch14-384 (视觉编码器)

2024-12-16 23:21:46 891

原创 上传的logo印在生成图片上(in-context lora)

In-Context LoRA + Image-to-Image + Inpainting

2024-12-13 23:27:18 782

原创 【论文+去背景】24.01.BiRefNet:Bilateral Reference for High-Resolution Dichotomous高分辨率二分图像分割的双边参考 (RMBG背后的算法

基于BiRefNet精细化 图片,视频二分分割(前景背景分割)

2024-12-12 21:07:35 1597

原创 【ComfyUI+视频生成】LTX-Video 快速生成视频 + 图生视频 (生成4秒 3090需要20秒)

来自Lightricks的开创性视频生成模型LTX Video (LTXV)。LTXV是一个仅有20亿参数(2B)的基于DiT架构的视频生成模型,能够实时生成高质量视频。它以768x512的分辨率,每秒24帧的速度生成视频,最多生成4秒,支持文生图,图生图。另外,LTX Video 基于开发人员的反馈和真实世界用例构建,可以提供自然逼真的结果。该模型做了高级定制化设计,可以流畅地集成各种外部工具,从而轻松地增强工作流。

2024-12-12 18:55:44 2294

原创 【ComfyUI+多视图生成】MV-Adapter:多视图一致性图片生成(2024.12.09基于SDXL开源)

可以在消费显卡运行的多视图一致性图片生成(文生多图,图生多图)

2024-12-11 23:35:12 1209

原创 PuLID免费在线制作自己AI形象(源码启动,防照片隐私泄露)

字节跳动推出 PuLID-FLUX-v0.9.0 模型,为 FLUX.1-dev 提供了一种无需调整、保持身份 ID 一致性和定制化风格的解决方案。

2024-12-11 10:45:41 596

原创 【ComfyUI】前景分割ComfyUI-BiRefNet-Hugo (无法选定分割的主体,背景鉴别由模型数据,也叫二分分割,显著性分割)

基于ComfyUI和BiRefNet的背景去除法:又叫二分分割,显著性分割

2024-11-27 15:08:01 361

台大 李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

台大 李宏毅教授VAE+GANs的讲解ppt 官网:https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/VAE%20(v5).pdf 也可以参考其他人的资源 https://blog.csdn.net/sinat_25346307/article/details/79108110

2024-05-27

VAE最简单代码实现,手写字符的预训练模型 checkpoint-8.pth

用作博客演示与复现

2024-05-27

【hugggingface】批量加速下载HuggingFace上的模型

【hugggingface】批量加速下载HuggingFace上的模型

2024-03-06

检测标注软件(labelImg labelme ) (目标检测、分割)

labelImg 可以输出voc和 yolo的标注格式 labelme 可输出json并转化为多种格式 windows下直接运行 链接: https://gitee.com/monkeycc/labelme/releases/tag/v5.2.0.post4 https://github.com/wkentaro/labelme/releases/tag/v5.2.0.post4 https://gitee.com/monkeycc/anylabeling https://github.com/HumanSignal/labelImg https://github.com/HumanSignal/labelImg/releases

2023-09-14

旋转框标注软件rolabelImg(win10可用)

可标记旋转框,用来训练目标检测的最小外接矩形 免编译安装,自己编译好了,开箱即用, 可能有bug,可以下载博主其他资源 资源有问题可以私聊我 相关博文: https://blog.csdn.net/imwaters/article/details/129064669

2023-02-16

C语言2种方式实现简单单链表的创建

C语言:数组创建单链表;键盘输入数值创建单链表。 int main() { pNode tmp=(pNode)malloc(sizeof(struct Node) ); tmp=creatList(); tmp=inputCreatList(); return 0; }

2020-02-02

图片感兴趣区域ROI获取-鼠标选择矩阵区域+不规则多边形区域(anoconda3.4+spyder+python3.5+opencv3.4)

1.本资源主要是基于python-opencv进行开发的,主要功能是用鼠标提取不规则的ROI以便进行后续处理。 2.https://blog.csdn.net/imwaters/article/details/80808491博文配套代码,整理了一些参考资料。代码基本是一样的,有分的麻烦还是下载支持一下。

2018-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除