哦豁灬-CSDN博客

原创通过云服务器远程连接局域网内的windows电脑

这个需求是来自于我在家里的办公电脑是性能比较强的，但是没有公网 IP，在外面的时候（例如坐车，开会fish），有时候想要使用家里的办公电脑搞些好玩的，画画图什么的，就可以通过 windows 的远程桌面连接上家里的电脑，直接开始了。需要的条件：1）一个有公网IP的云服务器，我这使用的是阿里云的 ECS2）一个在局域网内能够访问到云服务器，但是外部网络访问不到的 windows 电脑，我这里就是家里的 windows11 办公电脑。

2025-04-23 09:15:00 2545

原创手写 CPU 卷积核加速神经网络计算(2)——OpenCL 简单实现卷积、池化、激活、全连接、批归一化（python 实现）

这里使用 pyopencl 这个支持在 python 环境下跑 opencl 的库，用 opencl 简单实现了这五个算子，没有做其他的算法和内存上的优化。

2025-04-23 09:00:00 2268

原创多节点 CPU+GPU 协同计算负载均衡性设计

假设按输入数据划分，我们可以采用动态的方式给每个 CPU 或 GPU 设备分配数据，做到动态负载均衡，然而这种划分方式，使所有的线程向同一个输出位置保存结果，为了正确性，需要使所有的线程对每个结果进行原子操作，这样将会严重影响性能，极端情况下，所有线程还是按顺序执行的。因此，这种方式效果很差。从输出角度，让所有的计算进程（设备）都有一份计算结果，设备内的线程对结果进行并行计算，每个设备都有一份局部的计算结果，所有设备都计算完毕之后，利用MPI进程对所有设备的计算结果进行规约，规约最后的结果即是最终的结果。

2025-04-22 09:15:00 3291

原创 NCCL 原理

NCCL是Nvidia Collective multi-GPU Communication Library的简称，它是一个实现多GPU的collective communication通信（all-gather, reduce, broadcast）库，Nvidia做了很多优化，以在PCIe、Nvlink、InfiniBand上实现较高的通信速度。

2025-04-22 09:00:00 2354

原创单节点到多节点优化思路

主要在于如何高效进行多节点并行计算的优化，以及单节点如何利用现代CPU和的缓存的特点高效执行计算。

2025-04-21 09:15:00 2695

原创 NCCL 介绍

模型规模和单一算例下GPU集群数量的指数化增长，对于大规模的神经网络的训练和推理，需要对计算任务进行分割并协调GPU集群来执行单个同步计算。无论使用哪一种并行运算技术，始终无法避免GPU与GPU之间的相互通讯。

2025-04-21 09:00:00 2909

原创手写 CPU 卷积核加速神经网络计算(1)——naive 实现卷积、池化、激活、全连接、批归一化（python 实现）

导入一个真实的网络测试一下。

2025-04-16 10:07:53 2568

原创贡献 Triton 算子库

FlagGems 使用 pre-commit（https://pre-commit.com）的 git hooks 格式化源代码，在调用 git commit 命令时进行代码静态检查，并且 pre-commit 测试也是 CI 的一部分，不通过检查的 Pull Request 不能被提交到 FlagGems。打开 FlagGems GitHub 首页（https://github.com/FlagOpen/FlagGems），单击 Fork 按钮创建一个仓库副本。

2025-04-16 10:06:44 2729

原创 Triton(3)——Triton 语义

Triton 在大多数情况下遵守 NumPy 的语义，但也有一些例外。

2025-04-15 09:15:00 2865

原创 Triton(2)——Triton源码接结构

转换 pass：lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp。注：transforms 用于各级 dialect 之上，conversion 用于各级 dialect 之间。include/：核心逻辑定义，核心功能的。python/：python 接口代码。unittest/：单元测试代码。utils/：项目配置文件目录。cmake/：构建配置相关。lib/：核心逻辑实现，docs/：项目文档。test/：测试代码。

2025-04-15 09:00:00 2533

原创 Triton(1)——Triton get started

Triton 基于 python 的 DSL，面向 GPU 体系特点，自动分析和实施神经网路计算的分块，triton 既是语言，也是编译器。

2025-04-14 09:15:00 2591

原创 Tiny Cluster(2)——集群内 SSH 免密登录及批处理

在集群环境中，我们希望能够在多台主机上批量安装软件、获取信息等操作。为了提高效率，需要实现集群内的SSH免密登录和批处理任务执行。操作默认在主节点进行。

2025-04-14 09:00:00 1899

原创 Tiny Cluster(1)——搭建树莓派小型计算集群

由于Kubernetes的Pod之间通信复杂，推荐使用支持MPI的Kubernetes Operator或专门的MPI部署工具，如MPI Operator。注意：由于MPI需要在多个Pod之间进行通信，上述简单的Deployment可能无法满足需求。按回车接受默认路径（~/.ssh/id_rsa 和 ~/.ssh/id_rsa.pub），不要设置密码（直接回车两次），否则后续自动化操作会失败。创建一个Kubernetes的Deployment配置文件，以在K3s集群中运行容器化的Python脚本。

2025-04-12 16:04:13 3263

原创 LLM 部署(7)——LivePortrait 数字人_开源的图生视频模型本地部署和专业视频制作

LivePortrait大模型，只需要一张人脸正面图片和一段文字或音频，即可制作专业的视频内容。LivePortrait 的展示样例：https://liveportrait.github.io/LivePortrait 理论研究，论文：https://arxiv.org/pdf/2407.03168s。

2025-04-12 15:00:38 2230

原创在 Docker 中搭建 CUDA&CUDNN 开发环境

使用容器搭建开发环境:一是可以单独配置开发环境，防止不同工程与项目所用技术的不同引发环境冲突；二来也可以充分的保护主机环境不会因为自己搭建的失误导致系统崩溃。在 Ubuntu 系统中，使用 Docker 容器创建可以使用 GPU+CUDA+cudnn 的步骤。主机需要正常运行 NVIDIA GPU 驱动，通过 docker 来调用 CUDA driver（实际上是在 docker 之上，NVIDIA 又实现了一层才能正常使用），并在创建的 container 中虚拟出 CUDA driver。

2025-04-11 09:30:00 2507

原创 LLM 部署(6)——KTransformers_4090 单卡部署 deepseekseek_r1

【代码】LLM 部署(6)——KTransformers_4090 单卡部署 deepseekseek_r1。

2025-04-11 09:15:00 2430

原创 Vscode 配置代码助手

打开 VSCode，进入扩展市场（快捷键 Ctrl+Shift+X），搜索 “Continue”，然后点击安装。插件：Continue - Codestral, Claude, and more。在 VSCode 中，按。配置自动补全模型（选配）

2025-04-10 09:15:00 2435

原创 LLM 部署(5)——大模型部署私有化 RAG 知识库系统(Docker+AnythingLLM)

AnythingLLM框架: https://github.com/Mintplex-Labs/anything-llm。

2025-04-10 09:00:00 2874

原创 torch.cosine_similarity接口安全性改进

范数可能会超过输入 tensor 的数据类型的表示范围，得到。的计算可能出现 0 做分母，算出 NAN 来。计算的 tensor 的。计算的 tensor 的。范数可能为 0，那么。做分母，算出 0 来。更安全的余弦相似度计算。

2025-04-09 12:01:19 2602

原创 LLM 部署(4)——使用开源大模型部署私有化 Code Copilot

插件，目前支持VS Code和JetBrains 全家桶这 2 个主流 IDE 的扩展，可以在对应的插件市场中直接搜索Continue下载安装。安装成功并重启之后，可以看到VS Code的左侧多了一个Continue按钮。插件管理器中，搜索Continue，点击安装，安装成功之后重启 vscode 即可。快捷键，然后在按下回车键，可以看到代码已经生成，可以按Tab键使用代码。，然后按下回车键，可以生成测试用例代码。在编辑器中，选中一段代码函数，然后按下。在编辑器中，选中一段代码，然后按下。

2025-04-09 12:00:27 2409

原创 LLM 部署(3)——vLLM CPU 和 GPU 模式部署大语言模型

vLLM的依赖包默认支持 GPU 部署和推理，如果使用CPU推理，需要根据vLLM源代码重新编译打包。frpc_linux_amd64文件默认在 HF 上，需要通畅的网络，百度网盘。需要下载vLLM源代码，自己编译打包和安装。(如是Windows WSL子系统，可以通过。参数启用 GPU 多卡分布式并行推理能力。vLLM目前只支持Linux操作系统。命令获取 WSL 的 IP 地址)客户端的使用方法，与之前完全一样。

2025-04-08 16:37:48 13208 2

原创树莓派 NCNN 部署 yolov5（fp32/fp16）

github 项目仓库：https://github.com/Taot-chen/raspberrypi_dl。

2025-04-08 09:46:45 2666

原创 LLM 部署(2)——Ollama 部署大模型

Ollama官网：https://ollama.com/Ollama是一个开源的 LLM（大型语言模型）服务工具，支持的大语言模型列表，可通过搜索模型名称查看：https://ollama.com/library, 官方 GitHub 源代码仓库：https://github.com/ollama/ollama/。在官网首页，可以直接下载Ollama安装程序（支持 Windows/MacOS/Linux）：https://ollama.com/安装完成之后常用的系统环境变量参数设置：删除单个本地大模型：

2025-04-07 09:30:00 3738

原创虚拟网络设备

Linux提供了许多虚拟网络设备用于运行 VMs 和 containers。

2025-04-07 09:15:00 3783

原创常用数据时域降噪方法

数据降噪是最常用的数据处理方法之一。从时域和频域的角度，数据降噪方法可以分为时域降噪和频域降噪，本文主要介绍一些常用的时域降噪方法。

2025-04-06 18:47:05 2636

原创 LLM 部署(1)——LLM 部署框架对比

它通过创新的PagedAttention技术、连续批处理、CUDA核心优化以及分布式推理支持，显著提高了LLM的推理性能。PagedAttention技术：通过内存管理技术，PagedAttention能够将注意力机制中的键（keys）和值（values）存储在不连续的显存空间中，从而减少显存碎片，提高显存利用率。捆绑模型组件：Ollama将模型权重、配置和数据捆绑到一个包中，称为Modelfile，这有助于优化设置和配置细节，包括GPU使用情况。可以应用于多种场景，如聊天机器人、文本生成、问答系统等。

2025-04-06 18:43:58 2377

原创编译一个最小可用 Linux 内核

我们需要添加3个文件用以描述外部。直接编译的出的镜像文件大小有153M。文件系统的最小内核, 以。

2025-04-04 09:30:00 2013

原创香橙派5 Ultra(2)——RK3588 上 CPU 和 GPU 算力以及 opencv resize 性能对比测试

注：这里修改 GPU 的模式在开发板重启之后即恢复为默认值。

2025-04-04 09:15:00 10157 1

原创低秩分解压缩模型实验

低秩分解（Low-rank Decomposition）是一种矩阵分解技术，旨在将一个矩阵分解为两个或多个矩阵的乘积，从而将高维数据压缩为低维表示，以减少参数量。在大模型中，权重矩阵通常非常大，尤其是在全连接层和注意力机制中，运用低秩分解可以减少参数量和计算量。权重矩阵W的大小为m×n。通过低秩分解，可以将W分解为两个较小的矩阵W1W2W≈W1×W2其中W1的大小为m×kW2的大小为k×nk是矩阵W秩（rank），通常k。

2025-04-03 09:15:00 2491

原创香橙派5 Ultra(1)——上手记录

Orange Pi5 Ultra 采用了瑞芯微 RK3588 新一代八核 64 位 ARM 处理器，具体为四核 A76 和四核 A55，采用的三星 8nm LP 制程工艺，大核主频最高可达 2.4GHz，集成 ARM Mali-G610 MP4 GPU，内嵌高性能 3D 和 2D 图像加速模块，内置高达 6 Tops 算力的 AI 加速器 NPU，具有高达 8K 显示处理能力。我这里的读速度为 1.8GB/s，这里一定要先清除缓存，否则会由于缓存的原因，达到很高的读速度。我这里的写速度为 1.5GB/s。

2025-04-03 09:00:00 2732

空空如也

空空如也