莱森-CSDN博客

原创 ASR热词技术调研

本文主要总结了工业界主流的几种热词技术路径，按照热词发挥作用的阶段大体可以分为四个阶段，具体如下。

2025-09-17 15:45:59 456

最近又开始看安卓开发了，对于我这个新手来说，一切都是从头摸索。今天是开始学习的第一天，下载好了Android Studio，尝试跟着教程跑了一个demo，下面是练习过程中学习到的一些经验，总结一下。不管学C++还是学什么，我的第一个习惯就是学会调试，因为这样才能定位错误。对于安卓开发，一般通过logcat来调试，如果报错的话，java的代码一般不用看，要找自己项目里代码报错的地方，直接点击链接就能跳转到指定的报错行。真机调试：在设置里打开开发者选项，打开USB调试。

2025-07-29 17:50:06 883

原创 pytorch格式转华为昇腾的om格式

请在服务器执行npu-smi info命令进行查询，在查询到的“Name”前增加Ascend信息，例如“Name”对应取值为xxxyy，实际配置的<soc_version>值为Ascendxxxyy。pytorch转onnx比较简单，教程有一大堆了，下面给出 onnx 转 om 格式的过程。–input_shape：执行推理时模型输入数据的shape，这个在转onnx的时候也需要。具体的转换过程为：pytorch => onnx => om。–model：model的ONNX模型文件存储路径。

2025-07-29 15:53:50 365

原创解决 C++ 中 debug 无法命中断点的问题

最近在linux中进行debug，结果一直无法命中断点。找了各种帖子都试了，都没用，最后还是跟着ChatGPT一步一步验证才找到具体的原因，所以还得是靠 AI 啊。C++程序进行debug无法命中断点，具体表现就是每次点击 debug 按钮之后，程序直接执行完毕，尤其是红色的断点在程序执行过程中会变成空心的白色断点。升级gdb，这个已经有很多现成的解决方案了，这里只提供解决思路，具体可自行google。说白了就是gdb版本太低了。强制使用 DWARF-4。

2025-07-22 15:12:01 166

原创 CMakeLists.txt 中一些最常见和核心的命令

这些是构建任何 C++ 项目几乎都必须用到的基础命令。这些命令帮助你更好地组织和管理项目的文件。这些命令提供了对编译和链接过程的精细控制。希望这份总结能帮助你快速上手 CMake！

2025-07-21 21:27:07 572

原创 C++中的模板参数 vs 函数参数：编译期与运行期的分界线

在日常开发中，我们经常接触函数参数，这是控制函数行为的最直接方式。但在 C++ 中还有一种强大的机制 —— 模板参数（Template Parameters），它赋予了我们在编译期就生成代码结构的能力。本文将通过直观的类比，讲清楚模板参数和函数参数的区别，并深入介绍模板参数的主要类型与用途。1️⃣ 类型模板参数 typename T / class T。🧩 你需要在编译期决定结构尺寸或逻辑分支。2️⃣ 非类型模板参数（编译期常量）🚀 你追求运行效率和零运行时开销。🔧 你想要类型安全的泛型结构。

2025-07-15 22:36:06 219

原创 C++ 中常见的字符串定义方式及其用法

最近在学习C++，下面将从基础到进阶的顺序，列出一些 C++ 中常见的字符串定义方式及其用法，包含完整代码和详细注释，加深对代码的理解。推荐尽量用 std::string 替代。不安全，容易越界或引发未定义行为。结尾必须是 ‘\0’

2025-07-15 00:06:38 484

原创 Vscode中使用C++代码进行debug

然后需要修改的就一个，将 program 参数的值设置为你已经编译好的可执行文件的地址，比如我的工作目录是 “D:\Desktop\C-Plus-Plus-master”，我的可执行文件的目录是 “D:\Desktop\C-Plus-Plus-master\backtracking\output\generate_parentheses.exe”，那就按照我图中的方式来改。先配置好C++的运行环境，比如安装C++插件，先把C++代码跑起来，所以你需要先编译好源码，才能进行后续的debug。

2025-07-12 23:20:01 600

原创针对Helsinki-NLP/opus-mt-zh-en模型进行双向互翻的微调

因为涉及到互翻，所以首先要告诉模型翻译的方向，具体就是在文本数据之前加一个目标语言的标识符，比如中翻英，原文“你好，你是谁？还有一个问题就是，输入是中英混合的文本，这样sentencepiece分词器也无法正确识别，一个办法就是将中英文分开，分别进行分词，然后将分词的结果按顺序进行拼接。通过下面的代码微调之后，就能得到一个双向的翻译能力的模型了，使用的方法和原生模型一样，直接加载就能推理了。最后，以上都是基于不重新训练分词模型的做法，如果可以重新训练分词模型，那么就不需要搞上面哪些操作了。

2025-05-30 18:23:18 1472

原创 ONNX模型的动态和静态量化

结合我的实践谈一下这两点，①在做语音合成模型量化的时候，模型中大量的卷积操作，使用netron打开后的结果如下图所示。②但是我当时量化的时候使用的校准数据是函数生成的，不是真是的输入数据，导致虽然模型量化成功了，但是效果却大打折扣。通常我们将模型转换为onnx格式之后，模型的体积可能比较大，这样在某些场景下就无法适用。最近想在移动端部署语音识别、合成模型，但是目前的效果较好的模型动辄几个G，于是便想着将模型压缩一下。这个代码贴的比较长，其实主要就是针对量化前后的模型进行了分析。

2025-05-30 17:16:09 828

原创 htop指令的输出理解释

例子中，已使用内存为 16.4 GB，总内存为 188 GB，使用占比约为 8.7%。表示系统的CPU的核心数，每个核心后的数字就是核心的利用率。例子中，系统有64个核心，每个核心利用率都满了，表示当前CPU核心都被完全占用，没有任何空闲容量，这是计算的瓶颈。负载平均值，它是一个衡量系统忙碌程度的指标，表示在一段时间内，等待 CPU 处理的平均任务（进程）数量。最近在测试服务的性能，使用了htop指令，记录一下指令输出的内容要怎么去理解，下面给出一个htop输出的截图，总共分为8个模块，然后逐个进行解释。

2025-03-24 17:41:51 369

原创 celery进程卡死解决办法

今天在用celery做消息队列管理的时候出现了进程卡死的现象，具体表现为 celery 的 inference_task 函数接收到app 传来的请求，inference_task 在执行的时候直接卡在 model_pipeline 的地方不动了。另外，如果直接在 tasks.py 中加载模型，那么 app.py 引用 tasks.py 的时候也会导致重复加载，所以目前的办法就是 tasks.py 从其他脚本中导入加载好的模型，然后再延迟导入。

2025-03-19 13:43:03 383 1

原创日志监控工具openobserve使用案例

分享一个日志监控工具，openobserve（简称 o2），它是一个云原生可观察性平台，专为日志、指标、跟踪、分析而构建，旨在以 PB 级规模运行。下面通过一个使用案例来分享o2的使用。首先是我们的服务产生日志，然后使用 filebeat 将日志解析并发送到 o2 平台，最后 o2 平台对日志进行可视化展示、分析等等。以上就是全部的内容了，介绍的比较简单，也是为了方便入门，后面更多的功能还需要进一步探索。默认只支持上传最近5小时的日志，超过5小时之前的不会传送。

2025-03-14 17:20:06 834 1

原创 loguru简单使用案例

今天使用了loguru来记录日志，感觉十分的方便，特此记录一下。

2025-01-03 00:10:56 554

原创 Git常用命令总结

本篇文章分享的是一些git的使用方法，掌握这些方法基本就可以满足日常的开发需求了。

2024-12-28 22:43:56 834

原创基于Fastapi搭建API服务实践案例

本文讲述了如何使用fastapi搭建一个属于自己的服务，整个服务使用fastapi框架搭建，celery管理任务队列，slowapi限制请求的频率，主要技术点就是这么几个，其实实践起来也是很简单的，那么我们就开始吧！该服务以高效、模块化和异步化的架构设计，满足了非实时语音转写的需求，并具有良好的可扩展性和稳定性。

2024-12-28 17:09:01 1392

原创深度学习模型部署框架之mnn

本文是深度学习模型部署框架的第三篇，更多部署框架可以查看本专栏的其他文章。概念：mnn是一个轻量级的深度神经网络引擎，支持深度学习的推理与训练。适用于服务器、个人电脑、手机、嵌入式各类设备。优势：轻量性，无任何依赖；兼容性好，支持常见的框架；工具齐全，与开发者交流方便。坑点：实践的不多，目前没发现什么坑点。本文介绍了mnn的在应用方面的一些经验总结，更多内容参阅文档。

2024-12-08 18:34:16 1053

原创深度学习模型部署框架之tflite

本文是深度学习模型部署框架的第二篇，更多部署框架可以查看本专栏的其他文章。概念：TensorFlow Lite 是TensorFlow在移动和嵌入式设备上的轻量级推理框架，专门针对资源受限的环境进行了优化，以便在手机、嵌入式设备上运行深度学习模型。优势：缩减了模型的大小和功耗，适合嵌入式等资源受限的设备。坑点：tfl 目前主要支持 cnn 相关的算子，对 rnn 等其他网络中的算子还没有很好的支持。对自家的tf框架支持比较好，对于其他框架支持不佳。

2024-12-08 18:25:56 1959

原创深度学习模型部署框架之ONNX Runtime

本文是深度学习模型部署框架的第一篇，更多部署框架可以查看本专栏的其他文章。概念：onnx一种开源模型格式，专注于推理所需的能力。同时，它还是一个中间深度学习框架，用于连接不同深度学习框架之间的转换。优势：跨平台兼容性好；性能优化；支持多种框架。坑点：onnx只是一个格式，就和json一样，只要满足规则，就是合法的。因此单纯从pytorch转成onnx格式很简单，但是不同后端框架接受的onnx是不一样的。

2024-12-08 18:07:18 3206

原创机器翻译模型及评估指标总结

最近在做有关机器翻译的相关工作，所以记录一下。在这篇文章中，总结了一些常见的机器翻译开源模型，分析主流的评估指标如 BLEU、ROUGE 和 METEOR，并通过代码示例演示这些指标的实现，最后结合实际应用场景，分享我在机器翻译技术落地过程中的实践经验和思考，希望为读者提供一些参考与启发。在这篇文章中，系统总结了常见的开源机器翻译模型及其相关的应用链接，深入分析主流评估指标并展示实现代码的具体过程，最后结合实际项目的经验，分享机器翻译技术在落地过程中的一些解决方案，希望能够为读者提供全面的思路和实践参考。

2024-12-07 23:17:32 3651

原创音频降噪模型总结

这篇文章介绍了7种常见的且效果不错的音频降噪模型，他们是从7个音频降噪项目总结而成，包含了源码以及效果展示。在项目的最后也贴出了参考的项目的地址，如果不想一次性看这么多的模型，也可以分别单独去看对应的项目。项目地址放在最后，如果最近在看音频降噪的小伙伴，可以好好看一下这个项目，相信你会有不少的收获，

2024-09-25 23:50:56 781

原创 Gradio使用案例

Gradio 是一个非常方便的 Python 库，用于快速构建用户友好的机器学习模型和其他应用程序的 Web 界面。通过 Gradio，你可以轻松地将机器学习模型转换成一个交互式的 Web 应用，而无需复杂的前端开发技能。这个程序创建了一个 Web 应用，用户可以上传音频并选择语言，推理结果显示在文本框中。Gradio 提供了简洁易用的界面，允许快速构建并分享应用，适合测试、演示和模型部署。gradio 是用于构建 Web 界面的库，能够快速将 Python 函数变为带有用户交互界面的应用程序。

2024-09-22 17:16:07 1500

原创 websocket的基本概念及基本用法

本文为websocket系列文章的第一篇，主要讲解一些websocket的基本概念和使用方法。WebSocket 是一种网络通信协议，它允许在客户端和服务器之间建立一个持久的连接，使得数据可以实时、双向地传输，从而为需要快速、连续交互的应用如在线游戏、聊天应用和实时数据更新提供了一个高效、低延迟的通信解决方案。本文讲解的内容很简单，更多的是为了加深对websocket的理解所做的一些笔记。

2024-09-10 00:16:38 880

原创 python的一些并发执行案例(多线程、多进程、协程、子进程)

Python作为一种广泛应用的编程语言，虽然因其GIL（全局解释器锁）限制，导致在多线程并发执行中存在一定局限性，但它依然提供了多种并发执行方式。通过合理地运用多线程、多进程、协程、以及子进程，开发者可以在不同场景下大幅提升程序性能。本篇文章将围绕Python的几种主要并发执行模式进行探讨，结合实际案例展示如何在不同任务场景中选择并实现这些技术。我们将重点介绍多线程适用于IO密集型任务的场景，多进程在CPU密集型任务中的优势，协程在高并发异步任务中的强大能力，以及子进程在独立进程间通信中的独特价值。

2024-09-08 23:56:36 1907

原创 Tensorboard常见用法示例

通过运行这个脚本我们可以得到一个存放在 ‘/data/chenkj/tensorboard’ 下的文件，再运行下面代码就可以启动tensorboard了，我们只需要复制这行代码打印出的网址就可以在浏览器中在线查看模型的结构了，比如输出的是 http://0.0.0.0:6007/，只需要把0.0.0.0换成你开启tensorboard的机器的ip就行了，下面其他例子都是一样的操作，后续就不赘述了。

2024-09-06 22:03:58 406

原创 dataset和dataloader学习笔记

通过获取一个batch数据的讲解，加上代码中的注释基本就能搞明白是怎么组织数据和获取数据的了，这里额外讲解一下dataloader中的collate_fn参数的作用。拿到的结果是一个元组列表，类似：samples = [(X[1],Y[1]),(X[4],Y[4]),(X[8],Y[8]),(X[9],Y[9])]其中 features = torch.stack([X[1],X[4],X[8],X[9]])假定m=4, 拿到的结果是一个列表，类似：indices = [1,4,8,9]

2024-09-05 00:33:43 542

原创安装tensorrt_llm踩坑总结

这些警告信息表明在编译或链接过程中找不到某些共享库 (libopen-rte.so.40, libopen-pal.so.40, libm.so.6, libhwloc.so.15)。这些库是 OpenMPI（用于并行计算的消息传递接口）的依赖库。其实系统中是有这些文件的，只不过没有在指定的路径下，所以只需要找到这些文件，然后重新指定一下这些文件的路径。除了文件找不到，各种库的版本适配也是个大问题，因为这个框架一直在迭代，还不是很稳定，建议安装tensorrt_llm。

2024-07-26 15:07:25 3170 4

原创提升基于python的web服务并发性能

首次尝试多进程的时候没有共享模型，导致每增加一路的并发就要加载一次模型，这样显存很快就爆了，增加了共享模型之后，每增加一个进程加载一次模型，显存的使用大大降低，这样最终限制并发路数的瓶颈就是GPU的使用率。问题出在我的服务是跑在单个线程上的，虽然用了异步的处理方式，但由于python的GIL的限制，并不能做到真正的并行处理，导致并发路数提不上去。测试并发性能的时候显存、内存、带宽这些资源都没有达到瓶颈，但是并发的路数却提不上去。一般有两种方式，多线程和多进程，打破GIL的限制，这里我使用的是多进程的方式。

2024-07-24 16:20:53 430

原创 Some tensors share memory, this will lead to duplicate memory on disk

报错的代码，在执行完这行代码后的到的 supported_classes 为 (PreTrainedModel,) ，这时保存checkpoint的逻辑又要经过多次判断才能保存，所以就出错了。报错发生在 trainer 保存 checkpoint 的时候，从源码来看，trainer 在保存 checkpoint 的时候会经过一系列的判断，然后选择合适的方法来保存。这种方法仅是为了解决问题而提出的，感觉走的是歪路，但是经过验证保存的 checkpoint 是正常可用的。此外，这种方法不一定能适用各种场景。

2024-07-20 12:48:54 1118 1

空空如也

空空如也