- 博客(248)
- 收藏
- 关注
原创 树莓派在 terminal 渲染 markdown
背景介绍:最近在通勤上时间较多,考虑通过移动设备连接家里的文件服务器(树莓派5)来阅读各种文档,利用通勤时间来学习一些东西。通过移动终端(手机,墨水屏阅读器)利用终端模拟器来连接设备,考虑使用终端的情况,最好是能够在 terminal 渲染 markdown 文件,提升阅读体验。主要是使用 mdcat 在终端渲染 markdown 文件,由于 mdcat 没有提供 aarch64 的版本,因此核心是解决 mdcat 在树莓派的编译适配+终端特性兼容(远程场景没有 GUI/专有图片协议)。
2026-04-06 13:06:28
640
原创 bitbrick_k1集群使用prima_cpp分布式部署大模型推理
本文介绍了prima.cpp(llama.cpp的分布式实现)的部署过程及性能测试。首先配置4节点集群,安装必要工具并下载Q8_0量化模型。测试发现Qwen3-14B模型存在兼容性问题,改用Qwen2.5系列后,3B模型速度仅1.5 token/s,0.5B模型达5 token/s。对比单节点ollama部署(3B模型1.21 token/s,0.5B模型6.99 token/s),发现prima.cpp存在硬件利用率低、负载分配不均的问题。结果表明当前实现尚需优化,特别是在硬件加速利用和负载均衡方面。
2026-04-06 13:03:51
1319
原创 Arch Linux GPU 驱动配置
本文介绍了ArchLinux系统中各类显卡驱动的安装方法,主要分为集成显卡、独立显卡和双显卡三种情况。对于集成显卡,Intel显卡建议安装mesa和vulkan-intel驱动,AMD显卡需根据架构选择AMDGPU或ATI驱动。NVIDIA独立显卡推荐使用闭源驱动,不同型号对应不同驱动包。双显卡用户可安装optimus-manager进行切换,AMD显卡则使用DRI_PRIME环境变量。文章还提供了glxgears、glmark2等性能测试工具的使用方法,帮助用户验证驱动安装效果。
2026-04-06 12:57:17
878
原创 Arch Linux 系统配置
本文介绍了Linux系统(KDE桌面环境)的优化设置指南,主要包括:1)调整系统设置(空会话启动、文件打开方式、触摸板功能);2)字体管理(Windows字体安装);3)输入法配置(Fcitx5+Rime输入法及雾凇拼音方案);4)Zsh终端优化(插件安装与配置)。通过详细的命令行操作和图形界面设置步骤,帮助用户打造更符合个人使用习惯的Linux工作环境。
2026-04-06 12:56:17
851
原创 OpenClaw Skill 实现公众号自动排版
摘要:文章介绍了如何利用AI工具快速完成公众号排版工作流,从飞书文档到微信后台实现一键推送。核心步骤包括:1)安装排版工具;2)配置微信公众号API;3)选择主题风格一键推送。该方案可节省排版时间,支持多种主题风格适配不同内容类型,并提供了常见问题的解决方案。用户只需完成写作和简单配置,即可实现从文档到公众号的高效发布流程。(149字)
2026-04-06 12:55:02
868
原创 OpenClaw 树莓派 / 香橙派部署
摘要:本文详细介绍了在树莓派5和香橙派5 Ultra(RK3588)等ARM开发板上部署OpenClaw AI助手的完整流程。文章首先分析了ARM开发板作为7x24运行设备的优势(低功耗、低成本),并对比了两款设备的性能差异。随后分步骤讲解了环境准备、Node.js安装、OpenClaw部署等关键环节,特别强调了SSH真实登录、网络连通性检查等易错点。最后提供了系统服务配置和运行验证方法,为开发者提供了在ARM平台上稳定运行OpenClaw的实用指南。文中还包含针对国内用户的网络优化建议和常见问题解决方案。
2026-04-06 12:53:13
833
原创 ThinkPad X220 安装 Arch Linux 完美指南
Arch Linux安装指南摘要 本文详细介绍了Arch Linux的安装过程,包括镜像准备、基础安装和系统配置。主要内容: 镜像准备:推荐从国内镜像站下载最新ISO,使用dd命令制作安装U盘 安装环境设置:禁用reflector服务、确认UEFI模式、配置网络连接 磁盘分区:使用GPT分区表,创建EFI、Swap和Btrfs分区 文件系统:采用Btrfs格式并创建子卷,支持快照和透明压缩功能 系统安装:挂载分区后安装基础包和必要软件,生成fstab文件 该指南特别针对ThinkPad x220设备,强调了
2026-04-06 12:38:30
1219
原创 NVIDIA Dynamo 推理框架
NVIDIA在GTC 2025上推出开源分布式AI推理框架Dynamo,通过创新架构显著提升大模型推理性能。其核心创新包括:1)分离式推理架构,将Prefill和Decode阶段分配至不同GPU,实现资源优化,使Llama-70B模型吞吐提升30%;2)智能路由系统,基于KV Cache复用率优化请求分配,降低首字节延迟70%;3)分布式KV Cache管理,支持多层存储自动卸载,改善响应时间40%;4)NIXL高速通信库,实现跨节点数据高效传输。测试显示,该框架可使DeepSeek-R1模型推理吞吐提升3
2025-09-21 22:04:36
12746
1
原创 markdown 绘制流程图
本文展示了使用Markdown Preview Mermaid Support插件绘制的四种Mermaid图表:横向流程图(从方形到条件判断再到不同结果)、纵向流程图(与横向类似但垂直布局)、UML时序图(展示人物交互过程)和甘特图(软件开发各阶段时间规划)。每种图表均包含完整代码示例和可视化效果,演示了Mermaid语法在不同场景下的应用方式,包括节点连接、条件分支、时间线规划等核心功能。
2025-09-21 21:07:01
12062
原创 通过云服务器远程连接局域网内的windows电脑
这个需求是来自于我在家里的办公电脑是性能比较强的,但是没有公网 IP,在外面的时候(例如坐车,开会fish),有时候想要使用家里的办公电脑搞些好玩的,画画图什么的,就可以通过 windows 的远程桌面连接上家里的电脑,直接开始了。需要的条件:1)一个有公网IP的云服务器,我这使用的是阿里云的 ECS2)一个在局域网内能够访问到云服务器,但是外部网络访问不到的 windows 电脑,我这里就是家里的 windows11 办公电脑。
2025-04-23 09:15:00
17977
原创 手写 CPU 卷积核加速神经网络计算(2)——OpenCL 简单实现卷积、池化、激活、全连接、批归一化(python 实现)
这里使用 pyopencl 这个支持在 python 环境下跑 opencl 的库,用 opencl 简单实现了这五个算子,没有做其他的算法和内存上的优化。
2025-04-23 09:00:00
17303
1
原创 多节点 CPU+GPU 协同计算负载均衡性设计
假设按输入数据划分,我们可以采用动态的方式给每个 CPU 或 GPU 设备分配数据,做到动态负载均衡,然而这种划分方式,使所有的线程向同一个输出位置保存结果,为了正确性,需要使所有的线程对每个结果进行原子操作,这样将会严重影响性能,极端情况下,所有线程还是按顺序执行的。因此,这种方式效果很差。从输出角度,让所有的计算进程(设备)都有一份计算结果,设备内的线程对结果进行并行计算,每个设备都有一份局部的计算结果,所有设备都计算完毕之后,利用MPI进程对所有设备的计算结果进行规约,规约最后的结果即是最终的结果。
2025-04-22 09:15:00
18553
原创 NCCL 原理
NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all-gather, reduce, broadcast)库,Nvidia做了很多优化,以在PCIe、Nvlink、InfiniBand上实现较高的通信速度。
2025-04-22 09:00:00
18378
原创 NCCL 介绍
模型规模和单一算例下GPU集群数量的指数化增长,对于大规模的神经网络的训练和推理,需要对计算任务进行分割并协调GPU集群来执行单个同步计算。无论使用哪一种并行运算技术,始终无法避免GPU与GPU之间的相互通讯。
2025-04-21 09:00:00
18371
原创 手写 CPU 卷积核加速神经网络计算(1)——naive 实现 卷积、池化、激活、全连接、批归一化(python 实现)
导入一个真实的网络测试一下。
2025-04-16 10:07:53
17279
原创 贡献 Triton 算子库
FlagGems 使用 pre-commit(https://pre-commit.com) 的 git hooks 格式化源代码,在调用 git commit 命令时进行代码静态检查,并且 pre-commit 测试也是 CI 的一部分,不通过检查的 Pull Request 不能被提交到 FlagGems。打开 FlagGems GitHub 首页(https://github.com/FlagOpen/FlagGems),单击 Fork 按钮创建一个仓库副本。
2025-04-16 10:06:44
17993
1
原创 Triton(2)——Triton源码接结构
转换 pass:lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp。注:transforms 用于各级 dialect 之上,conversion 用于各级 dialect 之间。include/:核心逻辑定义,核心功能的。python/:python 接口代码。unittest/:单元测试代码。utils/:项目配置文件目录。cmake/:构建配置相关。lib/:核心逻辑实现,docs/:项目文档。test/:测试代码。
2025-04-15 09:00:00
17441
原创 Triton(1)——Triton get started
Triton 基于 python 的 DSL,面向 GPU 体系特点,自动分析和实施神经网路计算的分块,triton 既是语言,也是编译器。
2025-04-14 09:15:00
17907
原创 Tiny Cluster(2)——集群内 SSH 免密登录及批处理
在集群环境中,我们希望能够在多台主机上批量安装软件、获取信息等操作。为了提高效率,需要实现集群内的SSH免密登录和批处理任务执行。操作默认在主节点进行。
2025-04-14 09:00:00
16569
原创 Tiny Cluster(1)——搭建树莓派小型计算集群
由于Kubernetes的Pod之间通信复杂,推荐使用支持MPI的Kubernetes Operator或专门的MPI部署工具,如MPI Operator。注意:由于MPI需要在多个Pod之间进行通信,上述简单的Deployment可能无法满足需求。按回车接受默认路径(~/.ssh/id_rsa 和 ~/.ssh/id_rsa.pub),不要设置密码(直接回车两次),否则后续自动化操作会失败。创建一个Kubernetes的Deployment配置文件,以在K3s集群中运行容器化的Python脚本。
2025-04-12 16:04:13
18089
原创 LLM 部署(7)——LivePortrait 数字人_开源的图生视频模型本地部署和专业视频制作
LivePortrait大模型,只需要一张人脸正面图片和一段文字或音频,即可制作专业的视频内容。LivePortrait 的展示样例:https://liveportrait.github.io/LivePortrait 理论研究,论文:https://arxiv.org/pdf/2407.03168s。
2025-04-12 15:00:38
17424
原创 在 Docker 中搭建 CUDA&CUDNN 开发环境
使用容器搭建开发环境:一是可以单独配置开发环境,防止不同工程与项目所用技术的不同引发环境冲突;二来也可以充分的保护主机环境不会因为自己搭建的失误导致系统崩溃。在 Ubuntu 系统中,使用 Docker 容器创建可以使用 GPU+CUDA+cudnn 的步骤。主机需要正常运行 NVIDIA GPU 驱动,通过 docker 来调用 CUDA driver(实际上是在 docker 之上,NVIDIA 又实现了一层才能正常使用),并在创建的 container 中虚拟出 CUDA driver。
2025-04-11 09:30:00
17584
原创 LLM 部署(6)——KTransformers_4090 单卡部署 deepseekseek_r1
【代码】LLM 部署(6)——KTransformers_4090 单卡部署 deepseekseek_r1。
2025-04-11 09:15:00
17532
原创 Vscode 配置代码助手
打开 VSCode,进入扩展市场(快捷键 Ctrl+Shift+X),搜索 “Continue”,然后点击安装。插件:Continue - Codestral, Claude, and more。在 VSCode 中,按。配置自动补全模型(选配)
2025-04-10 09:15:00
18051
原创 LLM 部署(5)——大模型部署私有化 RAG 知识库系统(Docker+AnythingLLM)
AnythingLLM框架: https://github.com/Mintplex-Labs/anything-llm。
2025-04-10 09:00:00
17907
原创 torch.cosine_similarity接口安全性改进
范数可能会超过输入 tensor 的数据类型的表示范围,得到。的计算可能出现 0 做分母,算出 NAN 来。计算的 tensor 的。计算的 tensor 的。范数可能为 0,那么。做分母,算出 0 来。更安全的余弦相似度计算。
2025-04-09 12:01:19
17279
原创 LLM 部署(4)——使用开源大模型部署私有化 Code Copilot
插件,目前支持VS Code和JetBrains 全家桶这 2 个主流 IDE 的扩展,可以在对应的插件市场中直接搜索Continue下载安装。安装成功并重启之后,可以看到VS Code的左侧多了一个Continue按钮。插件管理器中,搜索Continue,点击安装,安装成功之后重启 vscode 即可。快捷键,然后在按下回车键,可以看到代码已经生成,可以按Tab键使用代码。,然后按下回车键,可以生成测试用例代码。在编辑器中,选中一段代码函数,然后按下。在编辑器中,选中一段代码,然后按下。
2025-04-09 12:00:27
18291
原创 LLM 部署(3)——vLLM CPU 和 GPU 模式部署大语言模型
vLLM的依赖包默认支持 GPU 部署和推理,如果使用CPU推理,需要根据vLLM源代码重新编译打包。frpc_linux_amd64文件默认在 HF 上,需要通畅的网络,百度网盘。需要下载vLLM源代码,自己编译打包和安装。(如是Windows WSL子系统,可以通过。参数启用 GPU 多卡分布式并行推理能力。vLLM目前只支持Linux操作系统。命令获取 WSL 的 IP 地址)客户端的使用方法,与之前完全一样。
2025-04-08 16:37:48
35708
2
原创 树莓派 NCNN 部署 yolov5(fp32/fp16)
github 项目仓库:https://github.com/Taot-chen/raspberrypi_dl。
2025-04-08 09:46:45
17614
原创 LLM 部署(2)——Ollama 部署大模型
Ollama官网:https://ollama.com/Ollama是一个开源的 LLM(大型语言模型)服务工具,支持的大语言模型列表,可通过搜索模型名称查看:https://ollama.com/library, 官方 GitHub 源代码仓库:https://github.com/ollama/ollama/。在官网首页,可以直接下载Ollama安装程序(支持 Windows/MacOS/Linux):https://ollama.com/安装完成之后常用的系统环境变量参数设置:删除单个本地大模型:
2025-04-07 09:30:00
19959
原创 常用数据时域降噪方法
数据降噪是最常用的数据处理方法之一。从时域和频域的角度,数据降噪方法可以分为时域降噪和频域降噪,本文主要介绍一些常用的时域降噪方法。
2025-04-06 18:47:05
17872
原创 LLM 部署(1)——LLM 部署框架对比
它通过创新的PagedAttention技术、连续批处理、CUDA核心优化以及分布式推理支持,显著提高了LLM的推理性能。PagedAttention技术:通过内存管理技术,PagedAttention能够将注意力机制中的键(keys)和值(values)存储在不连续的显存空间中,从而减少显存碎片,提高显存利用率。捆绑模型组件:Ollama将模型权重、配置和数据捆绑到一个包中,称为Modelfile,这有助于优化设置和配置细节,包括GPU使用情况。可以应用于多种场景,如聊天机器人、文本生成、问答系统等。
2025-04-06 18:43:58
17219
原创 香橙派5 Ultra(2)——RK3588 上 CPU 和 GPU 算力以及 opencv resize 性能对比测试
注:这里修改 GPU 的模式在开发板重启之后即恢复为默认值。
2025-04-04 09:15:00
27232
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅