ronlym-CSDN博客

原创【TextIn大模型加速器 + 火山引擎】我发现了文档解析神器！-- 用专业解析提升复杂文档问答效果

摘要：本文探讨了如何通过TextIn文档解析工具结合Coze平台构建高效知识库应用。实验对比显示，TextIn在解析复杂格式文档（含表格、图片、多栏排版等）时表现优异，能显著提升Coze知识库的问答效果。传统解析方案存在格式兼容性差、复杂元素丢失等问题，而TextIn通过结构化输出和精准解析，使下游任务准确率提升35%-70%。研究证明，优化文档预处理质量是突破AI应用效果瓶颈的关键路径。

2025-12-28 00:05:37 17370 105

原创 DriveOS ⼊⻔到进阶：把图形显示、PVA 和 NvStreams 串成⼀条顺畅的⻋载数据⾼速路

DriveOS 可以理解为⻋载智能计算的⼀层“地基”，它把图形显示、传感器输⼊、加速器调度、数据流与同步、安全和调试⼯具放在⼀套经过⻋规约束的框架⾥，⾯向 Linux 或 QNX 应⽤场景提供统⼀接⼝。对团队的直接价值是让“从相机到推理再到上屏”的路径更可控：资源可预留、内存可共享、同步可验证，适合把感知、DNN 推理、座舱显示这些强实时模块跑在⼀台 SoC 上⽽不互相拖累。

2025-11-26 16:31:44 6136

原创用三段话看透产品口碑：基于 lazyllm 的“评论洞察助手”

摘要： “评论洞察助手”是一款轻量化CLI工具，帮助产品与运营团队快速分析用户评论。通过条形图统计评分分布与高频词，并生成三段式口语化点评（整体口碑、亮点、改进建议）。支持两种模式：Top模式（无需API密钥，本地统计）和Summary模式（调用LLM生成深度分析）。核心功能包括自动识别可用AI平台、文本可视化展示及结构化输出，旨在1分钟内提炼用户反馈核心信息，辅助决策。示例命令可直接运行，适用于CSV格式的评论数据快速分析。

2025-09-24 01:49:42 492

原创用驭码 CodeRider 2.0 中的 Loom 如何？使用体验分享

极狐GitLab推出的CodeRider 2.0 AI开发辅助工具深度融合了大模型与DevOps优势，其中Loom模式尤为亮眼。该模式采用Agent机制，具备任务拆解、多模态处理和工具链调用能力，能快速实现从需求到代码的完整工作流。实测显示，Loom在5分钟内即可生成功能完整的ToDo程序，并能修复bug和转换技术栈（如转为微信小程序）。CodeRider还提供对话模式（Chat）和GitLab工作流集成，支持自定义提示词和知识库挂载。其云端模型响应速度极快，代码生成质量高，对模糊需求的解析能力突出，产品细

2025-06-12 15:02:32 1306 49

原创代码能成为⽣命护栏吗？⼀起来读 NVIDIA 为智能汽车发布的安全⽩⽪书

首先写在前面，读完这份报告，我最大的感受是：智能汽车的安全问题，不是靠某个“黑科技”就能解决的，而是像织毛衣一样，需要一针一线的细致功夫。我每天上下班在堵车时打开的辅助驾驶，偶尔在高速行驶时面对突然出现在前方的障碍做的自动避让，或许这些就是技术的温度——用一行行代码、一次次测试，默默守护方向盘后的每一个生命。这样训练出来的系统，遇到没见过的场景时，不是死记硬背，而是真正理解背后的规律。高级辅助驾驶的安全不是一家公司能搞定的，就像拼乐高一样，需要无数人贡献自己的那块积木。白皮书：自动驾驶安全报告。

2025-04-29 21:27:13 735

原创使用 Nvidia DOCA 制作 DPA All-to-all Application

概念理解障碍：DOCA和DPU作为相对较新的技术，其专业术语和抽象概念初期难以消化。例如，理解DPU如何与CPU、GPU协同工作，以及DOCA框架下的资源管理方式，需要大量的背景知识和实践经验。技术选型困难：在构思DPU加速样例时，选择合适的应用场景和优化点是一个挑战。我们需要深入分析不同的数据处理任务，以确定哪些任务最适合由DPU来加速。资源限制：在实验过程中，我们注意到DPU资源的配置和管理需要一定的专业知识。如何高效利用DPU资源，避免资源浪费，是我们需要解决的问题。生态系统支持。

2025-03-12 15:38:00 1155

原创体验 Nvidia Isaac Sim 笔记

Isaac Sim的开发者社区相对活跃，遇到技术问题时通常能找到解决方案。我对Isaac Sim的更新迭代频率感到满意，希望未来能够继续保持。整体使用体验• GPU加速仿真：整体体验良好，仿真速度快，能够处理复杂的场景。• Pytorch框架集成：集成过程需要一定的配置，但一旦设置完成，使用起来非常高效功能改进建议• GPU加速功能：建议增加更多的GPU优化选项，以适应不同的硬件配置。• Pytorch集成：建议提供更多的教程和示例，帮助新用户更快地上手。

2024-11-21 18:10:46 6326 24

原创 SCNet「AI跃升季」·谁是下一个“AI”跃人？项目体验

算力为重要资源的时代已经来了，看得出国家超算互联网尽最大的力，想将国产算力和AI推广到更远的地方。对AI这一波感兴趣的朋友们抓紧时间上车吧，算力不够用也不怕，SCNET 上有很多活动可以白得算力（听说群里天天还有算力券的抽奖，积少成多，算力根本不用愁！）也可以看看这个AI体验的活动【谁是下一个“AI”跃人 -AI体验推介活动，赢取千元算力券！

2024-10-15 16:13:25 1243

原创昇思25天学习打卡营第25天|LSTM+CRF序列标注

序列标注指给定输入序列，给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取，包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。输入序列清华大学座落于首都北京输出标注BIIIOOOOOBI如上表所示，清华大学和北京是地名，需要将其识别，我们对每个输入的单词预测其标签，最后根据标签来识别实体。

2024-07-31 16:48:15 975

原创昇思25天学习打卡营第24天|Pix2Pix实现图像转换

Pix2Pix是基于条件生成对抗网络（cGAN, Condition Generative Adversarial Networks ）实现的一种深度学习图像转换模型，该模型是由Phillip Isola等作者在2017年CVPR上提出的，可以实现语义/标签到真实图片、灰度图到彩色图、航空图到地图、白天到黑夜、线稿图到实物图的转换。和。传统上，尽管此类任务的目标都是相同的从像素预测像素，但每项都是用单独的专用机器来处理的。

2024-07-31 16:45:01 595

原创昇思25天学习打卡营第23天|GAN图像生成

生成式对抗网络(Generative Adversarial Networks，GAN)是一种生成式机器学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。最初，GAN由Ian J. Goodfellow于2014年发明，并在论文生成器的任务是生成看起来像训练图像的“假”图像；判别器需要判断从生成器输出的图像是真实的训练图像还是虚假的图像。GAN通过设计生成模型和判别模型这两个模块，使其互相博弈学习产生了相当好的输出。GAN模型的核心在于提出了通过对抗过程来估计生成模型这一全新框架。

2024-07-31 16:42:37 1003

原创昇思25天学习打卡营第22天|Diffusion扩散模型

如果将Diffusion与其他生成模型（如Normalizing Flows、GAN或VAE）进行比较，它并没有那么复杂，它们都将噪声从一些简单分布转换为数据样本，Diffusion也是从纯噪声开始通过一个神经网络学习逐步去噪，最终得到一个实际图像。Diffusion对于图像的处理包括以下两个过程：我们选择的固定（或预定义）正向扩散过程qqq：它逐渐将高斯噪声添加到图像中，直到最终得到纯噪声一个学习的反向去噪的扩散过程pθp_\thetapθ。

2024-07-31 16:39:14 478

原创昇思25天学习打卡营第21天|DCGAN生成漫画头像

判别器由分层的卷积层、BatchNorm层和LeakyReLU激活层组成。输入是3x64x64的图像，输出是该图像为真图像的概率。生成器则是由转置卷积层、BatchNorm层和ReLU激活层组成。不同之处在于，DCGAN会分别在判别器和生成器中使用卷积和转置卷积层。由于数据是图像，这一过程也会创建与真实图像大小相同的 RGB 图像。当处理完数据后，就可以来进行网络的搭建了。，输出是3x64x64的RGB图像。与通过生成器传播的特征图的大小有关，转置卷积层来完成的，每个层都与。是输出图像中的通道数。

2024-07-31 16:35:57 352

原创昇思25天学习打卡营第20天|CycleGAN图像风格迁移互换

CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络，来自论文。该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。该模型一个重要应用领域是域迁移(Domain Adaptation)，可以通俗地理解为图像风格迁移。

2024-07-31 16:33:06 1022

原创昇思25天学习打卡营第19天|基于MobileNetv2的垃圾分类函数

MobileNet网络是由Google团队于2017年提出的专注于移动端、嵌入式或IoT设备的轻量级CNN网络，相比于传统的卷积神经网络，MobileNet网络使用深度可分离卷积（Depthwise Separable Convolution）的思想在准确率小幅度降低的前提下，大大减小了模型参数与运算量。图中Inverted residual block结构是先使用1x1卷积进行升维，然后使用3x3的DepthWise卷积，最后使用1x1的卷积进行降维，与Residual block结构相反。

2024-07-31 16:25:50 270

原创昇思25天学习打卡营第18天|基于MindSpore的红酒分类实验

K近邻算法（K-Nearest-Neighbor, KNN）是一种用于分类和回归的非参数统计方法，最初由 Cover和Hart于1968年提出(Cover等人,1967)，是机器学习最基础的算法之一。它正是基于以上思想：要确定一个样本的类别，可以计算它与所有训练样本的距离，然后找出和该样本最接近的k个样本，统计出这些样本的类别并进行投票，票数最多的那个类就是分类的结果。KNN的三个基本要素：K值，一个样本的分类是由K个邻居的“多数表决”确定的。K值越小，容易受噪声影响，反之，会使类别之间的界限变得模糊。

2024-07-31 16:23:57 911

原创昇思25天学习打卡营第17天|基于MindNLP+MusicGen生成自己的个性化音乐

与传统方法不同，MusicGen采用单个stage的Transformer LM结合高效的token交织模式，取消了多层级的多个模型结构，例如分层或上采样，这使得MusicGen能够生成单声道和立体声的高质量音乐样本，同时提供更好的生成输出控制。MusicGen不仅能够生成符合文本描述的音乐，还能够通过旋律条件控制生成的音调结构。MusicGen是来自Meta AI的Jade Copet等人提出的基于单个语言模型（LM）的音乐生成模型，能够根据文本描述或音频提示生成高质量的音乐样本，相关研究成果参考论文《

2024-07-31 15:26:29 370

原创昇思25天学习打卡营第16天|VisionTransformer图像分类

近些年，随着基于自注意（Self-Attention）结构的模型的发展，特别是Transformer模型的提出，极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性，它已经能够训练具有超过100B参数的空前规模的模型。ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下，依然可以在图像分类任务上达到很好的效果。

2024-07-31 15:23:52 758

原创昇思25天学习打卡营第15天|SSD目标检测

SSD，全称Single Shot MultiBox Detector，是Wei Liu在ECCV 2016上提出的一种目标检测算法。使用Nvidia Titan X在VOC 2007测试集上，SSD对于输入尺寸300x300的网络，达到74.3%mAP(mean Average Precision)以及59FPS；对于512x512的网络，达到了76.9%mAP ，超越当时最强的Faster RCNN(73.2%mAP)。具体可参考论文[1]。

2024-07-31 15:21:15 854

原创昇思25天学习打卡营第14天|Shufflenet图像分类

ShuffleNetV1是旷视科技提出的一种计算高效的CNN模型，和MobileNet, SqueezeNet等一样主要应用在移动端，所以模型的设计目标就是利用有限的计算资源来达到最好的模型精度。ShuffleNetV1的设计核心是引入了两种操作：Pointwise Group Convolution和Channel Shuffle，这在保持精度的同时大大降低了模型的计算量。因此，ShuffleNetV1和MobileNet类似，都是通过设计更高效的网络结构来实现模型的压缩和加速。

2024-07-31 15:18:47 1088

原创昇思25天学习打卡营第13天|ResNet50图像分类

ResNet50网络是2015年由微软实验室的何恺明提出，获得ILSVRC2015图像分类竞赛第一名。在ResNet网络提出之前，传统的卷积神经网络都是将一系列的卷积层和池化层堆叠得到的，但当网络堆叠到一定深度时，就会出现退化问题。下图是在CIFAR-10数据集上使用56层网络与20层网络训练误差和测试误差图，由图中数据可以看出，56层网络比20层网络训练误差和测试误差更大，随着网络的加深，其误差并没有如预想的一样减小。

2024-07-31 15:16:00 639

原创昇思25天学习打卡营第12天|ResNet50迁移

开始训练模型，与没有预训练模型相比，将节约一大半时间，因为此时可以不用计算部分梯度。保存评估精度最高的ckpt文件于当前路径的./BestCheckpoint/resnet50-best-freezing-param.ckpt。使用固定特征得到的best.ckpt文件对对验证集的狼和狗图像数据进行预测。若预测字体为蓝色即为预测正确，若预测字体为红色则预测错误。使用固定特征进行训练的时候，需要冻结除最后一层之外的所有网络层。冻结参数，以便不在反向传播中计算梯度。

2024-07-31 15:09:39 206

原创昇思25天学习打卡营第11天|FCN图像语义分割

FCN主要用于图像分割领域，是一种端到端的分割方法，是深度学习应用在图像语义分割的开山之作。通过进行像素级的预测直接得出与原图大小相等的label map。因FCN丢弃全连接层替换为全卷积层，网络所有层均为卷积层，故称为全卷积网络。全卷积神经网络主要使用以下三种技术：卷积化（Convolutional）使用VGG-16作为FCN的backbone。VGG-16的输入为224*224的RGB图像，输出为1000个预测值。VGG-16只能接受固定大小的输入，丢弃了空间坐标，产生非空间输出。

2024-07-31 15:01:45 638

原创昇思25天学习打卡营第10天|静态图加速

AI编译框架分为两种运行模式，分别是动态图模式以及静态图模式。MindSpore默认情况下是以动态图模式运行，但也支持手工切换为静态图模式。

2024-07-03 18:12:53 436

原创昇思25天学习打卡营第9天|保存与加载

上一章节主要介绍了如何调整超参数，并进行网络模型训练。在训练网络模型的过程中，实际上我们希望保存中间和最后的结果，用于微调（fine-tune）和后续的模型推理与部署，本章节我们将介绍如何保存与加载模型。

2024-07-03 18:11:03 198

原创昇思25天学习打卡营第8天|模型训练

从网络构建中加载代码，构建一个神经网络模型。超参（Hyperparameters）是可以调整的参数，可以控制模型训练优化的过程，不同的超参数值可能会影响模型训练和收敛速度。wt1wt−η1n∑x∈B∇lxwtwt1wt−ηn1x∈B∑∇lxwt公式中，nnn是批量大小（batch size），ηηη是学习率（learning rate）。另外，wtw_{t}wt为训练轮次ttt中的权重参数，

2024-07-03 18:08:26 1069

原创昇思25天学习打卡营第7天|函数式自动微分

神经网络的训练主要使用反向传播算法，模型预测值（logits）与正确标签（label）送入损失函数（loss function）获得loss，然后进行反向传播计算，求得梯度（gradients），最终更新至模型参数（parameters）。自动微分能够计算可导函数在某点处的导数值，是反向传播算法的一般化。自动微分主要解决的问题是将一个复杂的数学运算分解为一系列简单的基本运算，该功能对用户屏蔽了大量的求导细节和过程，大大降低了框架的使用门槛。

2024-07-03 18:02:46 1037

原创昇思25天学习打卡营第6天|网络构建

当我们定义神经网络时，可以继承nn.Cell类，在__init__方法中进行子Cell的实例化和状态管理，在construct方法中实现Tensor操作。construct意为神经网络（计算图）构建，相关内容详见使用静态图加速。

2024-06-28 17:16:47 174

原创昇思25天学习打卡营第5天|数据变换

通常情况下，直接加载的原始数据并不能直接送入神经网络进行训练，此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换（Transforms），配合数据处理Pipeline来实现数据预处理。所有的Transforms均可通过map方法传入，实现对指定数据列的处理。提供了面向图像、文本、音频等不同数据类型的Transforms，同时也支持使用Lambda函数。下面分别对其进行介绍。

2024-06-28 17:14:43 1042

原创昇思25天学习打卡营4天|Dataset

模块提供了一些常用的公开数据集和标准格式数据集的加载API。对于MindSpore暂不支持直接加载的数据集，可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集，然后通过接口实现自定义方式的数据集加载。支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集，下面分别对其进行介绍。

2024-06-28 17:12:12 460

原创昇思25天学习打卡营第3天|张量 Tensor

张量（Tensor）是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在n维空间内，有nr个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。r称为该张量的秩或阶（与矩阵的秩和阶均无关系）。张量是一种特殊的数据结构，与数组和矩阵非常相似。张量（）是MindSpore网络运算中的基本数据结构，本教程主要介绍张量和稀疏张量的属性及用法。

2024-06-28 17:09:16 974

原创昇思25天学习打卡营第2天|快速入门

跟随tutorial 处理数据集、网络、训练、保存、加载模型。

2024-06-25 18:27:35 287

原创昇思25天学习打卡营第1天|基本介绍

昇腾 AI 全栈架构，昇思总体架构

2024-06-25 16:38:03 244

ronlym的博客