自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(903)
  • 资源 (15)
  • 收藏
  • 关注

原创 【个人开源】——从零开始在高通手机上部署sd(二)

从零基础开始,在自己的高通手机(骁龙8 gen1+)上用NPU跑文生图stable diffusion模型。包含:- 高通qnn下载安装- sd模型浮点/量化导出- 在高通手机上用cpu跑浮点模型,htp跑量化模型

2025-02-21 21:14:57 848

原创 【个人开源】——从零开始在高通手机上部署sd(一)

从零基础开始,在自己的高通手机(骁龙8 gen1+)上用NPU跑文生图stable diffusion模型。包含:- 高通qnn下载安装- sd模型浮点/量化导出- 在高通手机上用cpu跑浮点模型,htp跑量化模型

2025-02-21 21:10:08 1302

原创 【arm汇编优化】——rgb图像分离

arm,汇编Code网上有大佬用arm做了一个【Arm端算法优化笔记】一,一步步优化盒子滤波算法,这里我们也体验一下arm的neon assembly加速。这里我们做一个简单的:rgb图像,r,g,b 3通道分割分别采用4种方式实现了:opencv内置函数暴力for循环neon intrinsic的实现neon assembly汇编以上4种方式都单独测试了耗时情况,并将处理结果保存成图片,进行结果检查硬件tx2,armv8-a,64位的处理器0.code0.0 openc.

2021-04-07 18:48:38 912

原创 【个人开源】——实时语义分割DDRNet

源码: DDRNet.py关键词: 实时语义分割原理介绍请看又快又强:Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of RoadDeep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road ScenesIntroductionThis is the unofficial .

2021-02-24 20:01:30 5574 28

原创 【个人开源】——tensorrt自定义插件,双线性上采样

1. resizebilinear选择5.1的分支。onnx-tensorrtonnx模型:百度网盘, 提取码: s7s1

2020-11-18 13:53:34 874

原创 【个人项目】——细腻的人像分割

项目地址: segmentation.pytorch前面介绍了,一个人像分割数据集。这里采用该数据做了人像分割的小demo。Supervisely 人像分割数据集格式转换1. 测试1.1 环境采用本机的torch1401.2 下载预训练的模型到ckpt/ade20k-resnet50dilated-ppm_deepsup预训练模型 | 提取码: 67xi1.2 测试python test.py --config config/person-resnet50dilated-ppm_de.

2020-09-14 11:42:04 3128 6

原创 【个人开源】论文复现SRN:Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

Towards Accurate Scene Text Recognition with Semantic Reasoning Networkscodehttps://github.com/chenjun2hao/SRN.pytorchUnofficial PyTorch implementation of the paper, which integrates not only globa...

2020-05-12 16:34:19 4838 12

原创 【个人开源】和百度类似的口罩检测分类

凑个热闹,和百度类似的口罩检测分类。但是推理速度更快。可以采用pip一键式安装,支持CPU和GPU两种推理模式。视频效果coming soondemohttps://github.com/chenjun2hao/face_mask...

2020-02-28 00:56:55 1379

原创 【个人开源】实时人脸检测centerface

the real-time face detection Centerfaceunofficial version of centerface, which achieves the best balance between speed and accuracy. Centerface is a practical anchor-free face detection and alignment...

2020-02-20 19:22:24 2866 44

原创 【个人开源】提供预训练结果的ocr标注工具

ocr标注工具提供预训练模型的标注结果采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注,并进行人工的验证或目标矩形框的修正,同时支持单张图片多个目标的标注。整理想法很简单,但是实现起来还是很麻烦的。大概用了2周的时间(而且是在开源项目上修改来的)。原特点B/S方式交互支持多人同时标注(可分配不同标注人员的标注范围,或不同人...

2020-01-07 14:11:24 1906

原创 【个人开源】2D Attentional Irregular Scene Text Recognizer代码复现

项目地址: https://github.com/chenjun2hao/Bert_OCR.pytorchUnofficial PyTorch implementation of the paper, which transforms the irregular text with 2D layout to character sequence directly via 2D attention...

2019-12-03 18:20:32 1086 5

原创 2D Attentional Irregular Scene Text Recognizer代码实现

原理解读参考:2D Attention Network for Scene Text Recognition个人复现的代码:Bert_OCR.pytorch

2019-11-25 17:35:06 990 1

原创 transformerOcr

简介整个项目采用attention ocr的思路进行中文场景文字识别,整个用resnet34采集特征,用transformer的方式做解码器。网络在训练的时候可以并行进行相较于现在常用的GRU做解码器训练速度会快很多。推理的时候还是采用和GRU做解码器同样的方式,将上一步的输出用于下一步的输出,速度并未提升。1. 网络结构...

2019-10-10 13:38:40 2608 8

原创 【AX650】——python推理Qwen3-0.6B/1.7B, Qwen2.5-VL-3B, Qwen3-VL-2B

本文介绍了在Axera NPU(AX650)上运行Qwen3-0.6B/1.7B等模型的推理方法。项目提供了单次推理和困惑度计算脚本,详细说明了硬件要求(AX650开发板)和软件依赖(Python 3.10、axengine等)。使用步骤包括系统镜像刷写、依赖安装、模型获取及运行示例,支持自定义问题输入。参数配置涵盖tokenizer路径、模型路径和用户提问设置。项目适用于在边缘设备部署轻量级大语言模型,为开发者提供了完整的推理解决方案。

2026-02-09 23:30:00 313

原创 【VLM】——vlm计算ppl损失

vlm模型的ppl损失计算

2026-02-09 14:45:36 145

原创 【llm】——计算llm的ppl损失

用transformer库计算llm的ppl损失

2026-02-09 14:09:20 103

原创 【rk】——rk3588推理获得logits

rk3588模型推理获得logits,计算ppl损失

2026-01-22 23:30:00 197

原创 【rk3588】——在rk3588上,用python进行qwen3-vl模型推理

本文介绍了在RK3588平台上部署Qwen3-VL多模态模型的方法。通过Python Flask框架搭建HTTP服务接口,方便进行模型验证和精度测试。部署步骤包括:1)安装RK NPU Lite工具包;2)下载官方提供的Qwen3-VL RKNN模型文件;3)启动Flask服务。最后提供了测试服务的Python脚本。该项目为在RK3588嵌入式平台上运行大语言模型提供了实践方案,适用于需要进行模型前处理和服务验证的场景。

2026-01-09 23:30:00 299

原创 【c++】——c++编译的so中函数有额外的字符

这个是 C++ 的名字修饰(Name Mangling) 机制导致的,是 C++ 为了支持函数重载、命名空间、类成员函数等特性,而对函数名进行的特殊编码,最终会在编译后的 SO(共享库)中生成带有额外字符的函数名。如果要g++编译动态的名字不变,需要加上以下代码。用gcc编译成动态库,并用nm看函数名字。用g++编译成动态库,并用nm看函数名字。

2025-12-16 17:37:26 251

原创 【linux】——看一个动态库的所有函数

【代码】【linux】——看一个动态库的所有函数。

2025-12-16 17:17:52 224

原创 【docker】——不启用docker的启动命令,使用自己的

不启用docker的启动命令

2025-12-10 23:30:00 335

原创 【prometheus】——docker部署Prometheus采集vllm的指标

docker部署prometheus采集vllm指标

2025-12-10 00:30:00 180

原创 【AX650】——修改 CMM 大小

2025-12-04 23:45:00 252

原创 【rk3588】——NPU qwenvl多张图片输入

本文介绍了如何修改多模态模型qwenvl以支持多张图片输入。主要修改包括:1)将多张图像的image_embed拼接成一个向量;2)设置rkllm_input.multimodal_input.n_image为实际图片数量。文中提供了代码示例,展示如何读取并处理3张图片(apple.png、pomelo.png等),通过内存拷贝将多张图片的特征向量拼接。此外还包含图像预处理方法,如将图像扩展为正方形并调整大小。该方法可扩展模型的多图处理能力,适用于需要同时分析多张图片的场景。

2025-12-01 15:43:52 344

原创 【rk3588】——NPU跑smolvlm-256M多模态模型

摘要:本文介绍了在RK3588 NPU上部署SmolVLM-256M多模态模型的完整流程。首先在x86服务器上进行模型导出,包括安装RKLLM和RKNN工具链,将视觉部分导出为ONNX格式并转换为RKNN模型,以及语言模型部分的PTQ量化处理。然后针对SmolVLM的特殊参数修改了量化数据生成脚本和板端推理代码。最终生成了可在RK3588上运行的视觉模型(smolvlm_vision_rk3588.rknn)和语言模型(smolvlm-256m-instruct_w8a8_rk3588.rkllm)。

2025-12-01 15:10:28 425

转载 【docker】——vscode进入docker容器进行代码调试或修改代码

vscode进入docker容器进行代码调试或修改

2025-11-26 11:03:57 99

原创 【vllm】——vscode配置python -m vllm.entrypoints.openai.api_server

vscode 配置python -m vllm.entrypoints.openai.api_server进行debug调试

2025-11-17 14:45:17 302

原创 【docker】——docker国内可用的源

本文介绍了Docker配置镜像加速与日志管理的方法。通过在daemon.json配置文件中添加多个国内镜像源(如dockerproxy、百度云、腾讯云等)并设置日志参数(最大500MB,保留3个文件)。配置后需重启Docker服务并可通过docker info验证。最后示例展示了使用配置后的环境拉取rayproject镜像。该方案能有效提升国内Docker镜像下载速度并优化日志管理。

2025-09-17 23:30:00 494

原创 【vscode】——远程主机可能不符合 glibc 和 libstdc++ VS Code 服务器的先决条件 (远程主机不满足运行VS Code服务器的先决条件)

VSCode升级后因GLIBC版本不兼容在Ubuntu18.04报错(需≥2.28)。解决方案:1)手动编译安装glibc-2.28到/opt目录;2)使用patchelf工具修改VSCode的node文件,重定向到新装的glibc库路径。操作包括下载源码、编译安装、备份原node文件并设置新的库解释器路径。验证通过后node可正常运行。

2025-09-17 12:19:55 1247

原创 【LLM】——qwen2.5 VL模型导出到onnx

说明:将qwen2.5 vl模型导出到onnx,用onnxruntime进行推理。

2025-07-29 23:00:00 8836 8

原创 【LLM】——Qwen2.5-VL 模型进行多模态推理(图像 + 文本)的自定义实现

本文展示了Qwen2.5-VL多模态模型的推理流程解析。通过加载3B参数的Qwen2.5-VL-Instruct模型,实现了图像描述生成任务。关键步骤包括:1) 使用AutoProcessor处理图文混合输入;2) 将视觉特征嵌入到文本token中;3) 通过DynamicCache管理历史信息;4) 进行迭代式文本生成。示例中模型成功识别了篮球场上五位女性的服装细节,验证了模型的视觉理解能力。代码还包含了模型输入准备、位置编码处理、注意力机制实现等核心环节,为后续模型导出到ONNX格式奠定了基础。

2025-07-28 17:28:30 743

原创 【wsl】——wsl访问windows的usb设备

摘要: 本文介绍如何在Windows系统中通过WSL连接USB设备进行嵌入式开发调试。主要步骤包括:1)安装usbipd-win工具;2)使用管理员权限PowerShell列出USB设备并获取总线ID;3)通过命令绑定共享设备;4)将USB设备附加到WSL;5)在WSL中使用lsusb验证设备连接。最后还提供了设备断开连接的命令。该方法适用于手机部署、RK3588模型部署等开发场景,需注意设备在WSL中使用时Windows将无法访问。

2025-07-16 21:23:44 673

原创 【onnx】——报错Segmentation fault (core dumped)

摘要: 使用onnxruntime推理Qwen2-7B模型时出现"Segmentation fault"错误。经检查发现onnx模型文件超过protobuf的2GB限制(实际5.48GB),导致加载失败。解决方案是对模型权重进行量化,减小模型体积后重新导出onnx格式。关键步骤包括:通过onnx.checker.check_model验证模型完整性,并需调整SessionOptions配置。该问题源于大模型文件与协议限制的冲突,量化是有效的优化方向。

2025-07-08 14:12:56 374

原创 【python】—conda新建python3.11的环境报错

conda新建python3.11环境报错。

2025-05-13 23:00:00 1078

原创 【“星瑞” O6 评测】 — llm CPU部署对比高通骁龙CPU

随着大模型应用场景的不断拓展,arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用,推动大模型在不同场景落地从推理速度来看:星瑞O6在同样的核心数量时,推理速度更快。而且星瑞O6共有12个CPU核。

2025-04-28 23:45:00 1238

原创 【“星瑞” O6 评测】 — CPU llama.cpp不同优化速度对比

随着大模型应用场景的不断拓展,arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用,推动大模型在不同场景落地Arm Kleidi 成为解决这些挑战的理想方案,它能够为运行在 Arm CPU 上的所有 AI 推理工作负载提供无缝的性能优化。KleidiAI 是一套轻量级且高性能开源的 Arm 例程,专为 AI 加速而设计。

2025-04-28 23:30:00 1226

原创 【“星瑞” O6 评测】—NPU 部署 face parser 模型

瑞莎星睿 O6 (Radxa Orion O6) 拥有高达 28.8TOPs NPU (Neural Processing Unit) 算力,支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 类型的加速。这里通过通过官方的工具链进行的部署。

2025-04-18 23:00:00 1131

转载 【工具】——保持termux中的sshd不掉线

下拉手机顶部状态栏,看到termux,点击“ACQUIRE WAKELOCK”,即可看到1 session(wake lock help)。此时,termux就可以保持后台运行,sshd也不会关闭。在手机上termux里面执行termux-wake-lock命令 ,手机会弹出是否运行后台执行的,选择允许就好了,手机管家–应用启动管理–找到Termux,不让它自动管理,选择允许后台运行。

2025-04-16 11:05:42 1051

原创 【“星瑞” O6 评测】 ——NPU 算力对比高通骁龙 npu

瑞莎星睿 O6 (Radxa Orion O6) 拥有高达 28.8TOPs NPU (Neural Processing Unit) 算力,支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 类型的加速。此文档主要讲解用户如何使用 CIX P1 NPU SDK 运行基于 NPU 加速推理的人工智能模型和应用。包括模型编译工具,工具链和一些常见模型案例进行逐步讲解。

2025-04-15 16:22:14 1294

原创 【mllm】——x64模拟htp的后端无法编译debug

qualcomm是支持x64模拟htp推理的,这样比较好debug,方便调试。但是mllm中是不支持的。因为他htp后端强制使用了。来申请内存,就是高通说的shared mem。但是这部分的问题是可以修复的,需要自己或作者出点工作量。后续的人有同样问题的可参考。通过自定义qualcomm graph使用高通的htp后端进行llm推理,网络暂时只有。

2025-04-11 16:58:53 399

armv8的白皮书:Arm Architecture Reference Manual Armv8, for Armv8-A architecture

armv8的白皮书,为官方文档包含架构讲解,neon函数,指令集等。文件为百度网盘下载链接。

2021-04-07

ASTER_An_Attentional_Scene_Text_Recognizer_with_Flexible_Rectification.pdf

ASTER_An_Attentional_Scene_Text_Recognizer_with_Flexible_Rectification的论文pdf

2019-08-02

hisi3516dv300, 用IVE将yuv420数据转换成bgr,包含源代码和测试数据

hisi3516dv300, 用IVE将yuv420数据转换成bgr,包含源代码和测试数据。

2022-12-07

tensorrt5.1双线性上采样插件

针对tensorrt5.1实现的双线性上采样插件,插件实测无误。如果用nvidia的gpu,在推理的时候,采用tensorrt进行加速是一个很好的选择,虽然tensorrt没有开源。

2020-11-17

cuda向量加法cmake编译

采用cmake编译cuda向量加法。 在大量的C/C++的项目中都使用CMake来进行项目的管理,而CUDA又是很流行的并行计算库,利用CMake来构建CUDA项目就显得很有必要了,而且项目中使用的CMakeLists.txt基本框架一致。

2020-11-10

download_scannet.zip

scannet数据下载的python脚本。

2021-01-27

faiss_install.zip

Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。这里将其移植到Hisi3559a芯片上。采用aarch64-linux-gnu-gcc/gfortran交叉编译实现。注意:编译器不同,可能无法使用。

2020-08-06

支持向量机线性可分matlab程序

采用matlab自带的quadprog()函数对支持向量机模型进行求解。整个文件夹包含测试用数据集,可运行。

2018-05-02

armv7白皮书:ARM Architecture Reference Manual ARMv7-A and ARMv7-R edition

armv7白皮书,包含指令集等

2021-04-07

pybind11 python调用c++拓展的例子

采用pybind11模块来实现python调用c++程序的两个例子,具体可以看:文章:https://blog.csdn.net/u011622208/article/details/111302047

2020-12-16

Hi3519A编译好的YOLOV3 demo百度网盘下载链接

Hi3519A编译好的YOLOV3 demo百度网盘下载链接。海思3519A自带的sdk中是没有yolov3的demo例子的,这就让人很不开心,而且华为的人给的资料很乱,其次,很多的demo都是支持Hi3559A的,还没入坑的,推荐选Hi3559A进行开发。

2020-04-28

opencv_cuda.tar.gz

利用cuda加速opencv图像处理的例子——交换mat的r,b通道。利用Cuda Runtime API、Cuda Driver API实现一些操作的并行加速,使用过程需要管理CPU与GPU之间的数据传输,内核函数调用参数的设置,内核函数的优化等。优点是处理过程受控于用户,用户可以实现更多的并行加速处理操作。

2020-11-10

pig_coco.py

我们一般使用的数据格式是voc2007的数据格式,有时我们也需要用coco数据格式,这种格式一般以json格式存储,那么如将voc2007格式的数据转成coco数据格式呢?这是python的代码实现,只用改路径就好。

2019-07-03

python多文件夹/文件夹依赖关系制作pip安装包

将文件夹打包成pip安装包,网络上大多是单个文件夹,且不存在文件(同文件夹/不同文件夹)直接的相互调用。使用环境有限。该包尝试将多个文件夹/文件之间存在相互调用的项目打包成一个pip包。

2020-02-27

ocr_annotation-master.zip

采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注,并进行人工的验证或目标矩形框的修正,同时支持单张图片多个目标的标注。整理想法很简单,但是实现起来还是很麻烦的。大概用了2周的时间(而且是在开源项目上修改来的)

2020-01-07

AMD-APP-SDK-v2.8-Windows-64.exe的安装文件

64位windows amd平台的opencl安装软件。安装之后sample在:C:\Users\xx\Documents\AMD APP\

2020-08-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除