- 博客(382)
- 资源 (92)
- 收藏
- 关注
原创 Agent 设计模式
(答:41岁),最后组合答案。提出背景:出现在 2023 年前后的 Agent 应用开发框架实践(如 LangChain 社区)核心思想:把任务拆成两个阶段,先生成计划(Planning),再逐步执行(Execution)场景例子:假设你让 Agent写一篇“新能源车的市场调研报告",它不会直接生成报告,而是先拟定计划:收集销量数据,分析政策趋势,总结消费者反馈,写结论。场景例子:让 Agent 写一段 Python 代码,如果第一次运行报错,它会读报错信息,反思”,然后自动修正并重试。
2025-12-24 20:18:09
455
原创 基于英伟达PyNvVideoCodec视频编解码
基于PyNvVideoCodec,视频解码、AI模型推理都在显存操作,减少了显存和cpu的数据拷贝。接口只支持本地视频,不支持实时视频流。
2025-12-05 17:49:03
404
原创 基于 Triton Inference Server部署模型
这些模型存储库可以位于本地或网络附加文件系统中,也可以位于 AWS S3、Azure Blob Storage 或 Google Cloud Storage 等云对象存储中。通过Execution Providers机制,支持CPU、NVIDIA CUDA/TensorRT、AMD ROCm、Intel OpenVINO、ARM NN、Android NNAPI等。在需要加载或卸载一个或多个模型而不中断同一服务器上提供的其他模型的推理的情况下,此 API 非常有用。ONNX是一个开放的标准,生态庞大。
2025-11-25 20:13:32
1013
原创 华为ATLAS实战一篇就够(灵界篇)
本来呢,传统的检测、分割、关键点、跟踪,这些主流任务已经在上一篇中基于ais_bench都已经实现了,基本也可以覆盖主流的场景需求了。但是还差一个任务,就是crnn这种车牌识别的模型,本质上也可以算是多预测的分类任务的模型吧。这个教程主要是实现车牌检测+识别的任务。车牌检测使用的是yolov5模型,车牌识别使用的是crnn模型。这里的2个模型都是使用的之前教程中的现场模型。硬件机器使用的是华为昇腾910B4的显卡。在实现的时候,网上也没有相关的成熟代码,但是理论上实现是可行的。
2025-11-24 15:55:53
60
原创 复杂文档、图表解析大总结
模型首先对降采样后的图像进行全局版面分析,然后对原生分辨率的裁剪区域进行文本、公式、表格的细粒度识别。该基准涵盖学术论文、财务报告、报纸、教科书等 9 种文档类型,包含 15 个块级元素(文本段落、标题、表格等)和 4 个跨度级元素(文本行、行内公式等)的注释信息,以及页面和块级别的各种属性标签。支持识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等各种元素,并支持印章、二维码、条形码等子类型,为LLM推理、训练输入高质量数据,帮助完成数据清洗和文档问答任务,无需在模型之间切换,也不会出现特征错位。
2025-10-31 16:37:10
979
原创 LLaVA-OneVision-1.5:面向多模态训练大众化的全开源框架
摘要(Abstract)本文提出 LLaVA-OneVision-1.5—— 一类新型大型多模态模型(LMMs),该模型在实现最先进性能的同时,大幅降低了计算成本与财务成本。与现有研究不同,LLaVA-OneVision-1.5 提供了一个开源、高效且可复现的框架,支持从零开始构建高质量的视觉 - 语言模型。LLaVA-OneVision-1.5 的发布包含三大核心组件:(1)大规模精选数据集:构建了含 8500 万条概念平衡预训练数据的数据集 LLaVA-OneVision-1.5-MidTraning,
2025-10-13 17:46:40
973
原创 从YOLOv1到YOLOv13,再到YOLO26
这些功能相结合,实现了当时最先进的结果。(a)路径聚合网络(PAN),(b)可逆列(RevCol),(c)常规深度监控,以及(d)我们提出的可编程梯度信息(PGI)。从图中可以看出,在不同的架构中,提供给目标函数以计算损失的信息会不同程度地丢失,我们的架构可以保留最完整的信息,并为计算目标函数提供最可靠的梯度信息。凭借模型设计的进步,YOLO11m 在 COCO 数据集上实现了更高的 平均精度均值 (mAP),同时比 YOLOv8m 使用的参数减少了 22%,从而在不影响精度的情况下提高了计算效率。
2025-09-30 15:35:53
1858
原创 文档解析Logics-Parsing
1. 摘要(Abstract)近年来,大型视觉语言模型(LVLM)的快速发展极大推动了文档解析任务的进步。与传统的基于流水线的方法相比,端到端范式凭借集成光学字符识别(OCR)、表格识别、数学公式识别等技术,在将 PDF 图像转换为结构化输出方面展现出显著优势。然而,由于缺乏针对文档布局和阅读顺序的明确分析阶段,LVLM 在处理多栏报纸、海报等复杂类型文档时能力受限。为解决这一局限,本报告提出 Logics-Parsing 模型:一种基于端到端 LVLM 并融合强化学习的模型。该模型设计了精细的奖励机制,用
2025-09-30 10:14:41
1291
原创 迈向可信AI:LLM幻觉的分析与优化
导语随着LLM的广泛应用,其生成内容的准确性和可靠性成为AI落地的关键挑战之一。幻觉(Hallucination)现象,即模型生成与事实不符或虚构的信息,不仅影响用户体验,更可能带来实际风险。本文将系统性分析LLM幻觉产生的根本原因,探讨其在实际应用中的优缺点,并结合RAG、SFT、强化学习、思维链、Agent Workflow等技术,提出多维度的优化方案。旨在为构建更可信、可控的大模型应用提供理论基础与实践路径,助力AI迈向更高的可靠性与价值创造。LLM的工作原理简介在进入正题之前,我们先初步了解一下LL
2025-09-26 15:15:29
1046
原创 华为ATLAS实战一篇就够(人界篇)
最近参与的项目变更,新的项目都是基于Yolov11开发的模型,抱着试一试的心态研究一下是否可以转化为ATLAS,不想还真发现了新大陆,这个新大陆就是aclruntime。代码支持了从Yolov5、v6、v7、v8、v9、v10、v11,于是便有了下面的故事。大概2年前,开始了华为ATLAS的研究,那时还是参考的官网的代码示例。基本模式只有2种,一种是ACL,另一种是MindX。总体测试和运用下来,感觉最好的解决方案还是基于MindX的Yolov5的解决方案。沉舟侧畔千帆过,病树前头万木春。
2025-09-23 17:24:24
1000
原创 信创GPU显卡算力对比
沐曦 / 曦云 C550 的 240 TFLOPs 以及天数智芯 / 天域 150S 的 224 TFLOPs 也不容小看,在深度学习模型训练这些场景里,能快速处理海量数据,加速模型训练过程,妥妥的助力小能手。华为昇腾 910B2 的 762 TPOS 表现突出,在推理阶段处理低精度数据超高效,像智能安防、自动驾驶这些对实时性要求高的领域,它就是 “救星”🌟沐曦 / 曦云 C550 的 560 TPOS 和天数智芯 / 天域 150S 的 384 TPOS 在各自定位的场景中也表现良好,各有各的闪光点。
2025-09-22 11:16:18
3456
原创 从BM25到Multi-Vector:6种Embedding演进路线
SaaS 客服 FAQ 检索:用户口语化提问“我忘了密码怎么办”,稠密向量命中“如何重置登录密码”,TOP1 命中率从关键词的 62 % → 89 %。律所 50 万判决文书检索:用 ColBERT 后,律师输入“员工加班工资如何计算”,返回段落级命中,文书阅读时间从 15 分钟 → 3 分钟。安卓相册“重复照片清理”:把 256 维 CNN 向量二值化后,在 3 万张照片里找相似,耗时 80 ms,耗电 <1 %。可以根据“数据规模、延迟、内存、精度、可解释性”五要素,根据不同的场景选择可用的嵌入方案。
2025-09-17 16:18:34
660
原创 基于YOLOV5的电子围栏入侵检测
通过 YOLOv5 模型对监控画面中的目标(如人员、车辆)进行实时检测,输出目标的位置坐标(边界框信息);若判定目标入侵围栏,系统即时触发告警机制(如推送弹窗、短信),同时关联视频截图或录像片段留存证据,形成 “目标检测 - 区域判定 - 告警响应” 的完整闭环,且可结合实际场景优化 YOLOv5 模型(如针对矿山场景标注数据训练,提升人员、矿车检测准确率),确保围栏判定的实时性(响应延迟≤1 秒)与准确性(入侵判定误报率≤5%)。│ └── ...(其余原始文件)转换命令(使用 ATC 工具)
2025-08-28 18:00:16
624
原创 最小VL视觉语言模型OmniVision-968M
然后,一个教师模型在保持与原始响应高度语义相似的同时,产生最小编辑的修正,特别关注准确性关键元素。Nexa-SDK是一个开源的、支持文本生成、图像生成、视觉-语言模型(VLM)、音频-语言模型、语音转文字(ASR)和文字转语音(TTS)功能的本地设备推理框架。OmniVLM 是一个紧凑的、亚十亿(968M)参数的多模态模型,用于处理视觉和文本输入,并针对边缘设备进行了优化。在所有任务中,OmniVLM 的表现都超过了之前世界上最小的视觉-语言模型。我们使用基于图像的问题回答数据集增强模型的上下文理解能力。
2025-08-04 11:45:14
736
1
原创 大模型推理引擎总结
论文:A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and EfficiencyGithub:https://github.com/sihyeong/Awesome-LLM-Inference-Engine大型语言模型(LLMs)广泛应用于聊天机器人、代码生成器和搜索引擎中。思维链、复杂推理、代理服务等工作负载通过反复调用模型,显著增加了推理成本。并行化、压缩和缓存等优化方法已被采用
2025-08-01 19:51:13
1542
原创 基于YOLOV5的人员离岗检测
采用 YOLOv5 构建人员离岗检测系统,以 640×640 的输入分辨率在 8-bit 量化后仍保持 92% mAP@0.5,单帧推理在华为atlas上仅需 18 ms;利用 ByteTrack 做关联,当“人框”消失持续 30 s 即触发离岗事件,并把告警回传给后端 WebSocket,实现秒级闭环。├── yolov5/ # 下载好的 YOLOv5 源码目录。将 ONNX 模型转换为 OM(华为昇腾推理格式)│ └── ...(其余原始文件)
2025-07-31 10:33:31
436
原创 2025WAIC世界人工智能大会个人思考+ Hinton演讲
26号参观了会展,1层会展上很多公司都有自己的硬件、软件产品、解决方案,也看到了几个老东家的展位。整体归纳起来就是国产显卡、设备、大模型、智能体、标注平台、训练平台、云服务、具身智能。27号听了论坛,主要听了华院、阿里、期智研究院等的论坛,还在2层领取了3本厚厚的论坛资料。说点我自己的感觉,也幸也悲,幸的是生逢技术蓬勃发展的时代,有幸参与了其中几个研究并持续到现在,悲的是技术发展太快,终究有一天自己也不得不离开这片领域。
2025-07-28 17:59:11
592
原创 基于深度神经网络的视频分析效率优化技术综述:处理系统、算法与应用
论文:A Survey on Effciency Optimization Techniques for DNN-based Video Analytics: Process Systems, Algorithms, and Applications近年来,视频数据的爆炸式增长对视频分析提出了更高要求,其中准确性和效率仍是两大核心关注点。深度神经网络(DNNs)已被广泛应用以确保分析准确性,然而,如何提升其在视频分析中的效率仍是一个亟待解决的挑战。与现有主要从准确性优化角度总结基于 DNN 的视频分析研究的
2025-07-24 19:01:24
832
原创 从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较
与传统的全局注意力机制相比,这种设计显著减少了KV缓存的内存占用。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。Llama 4采用了与DeepSeek V3类似的架构,但在某些细节上进行了优化,以提高模型的性能和效率。Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的架构(更多Transformer块),具有更多的层,而 Llama 3 是一种更宽的架构,具有更多的注意力头。
2025-07-22 19:44:13
1567
原创 智能体平台汇总
DataAgent 融合结构化和非结构化数据,基于开源和闭源大语言模型:MCP 工具、知识库、元数据、数据权限管控、数据查询分析、多智能体协作等核心能力,通过深度理解业务语境,主动思考拆解数据任务,自动调取各种工具处理企业数据、智能深度分析、自动执行任务,全天候帮助业务高效挖掘数据价值,支持业务用户通过自然语言等方式便捷完成面向行业应用的各种数据业务场景,如数据管理、数据分析、数据营销等。依托插件、工具及知识库组件,显著降低智能体构建门槛,助力全行业务、技术人员和应用系统快速构建 AI应用。
2025-07-17 11:39:43
1743
原创 大模型训练框架对比
非常全面,支持多种模型类型(文本、多模态)、多种训练方式(预训练、微调、人类对齐)、优化算法丰富、支持推理引擎和实验监控。支持多种主流模型(如Llama、Mistral、Phi、Gemma、DeepSeek-R1等)功能全面,支持多种模型类型、多种训练方式、数据集丰富、支持分布式训练和界面训练。支持多种推理引擎(如Transformers、vLLM)多模态模型开发、需要全流程支持(预训练、微调、推理)功能全面、优化算法丰富、加速效果显著、支持多模态模型。功能全面、数据集丰富、支持分布式训练、界面训练。
2025-07-16 16:40:12
1721
原创 MAAS平台
第二步,对收集到的需求进行详细分析和梳理,结合行业最佳实践和 AI 技术发展趋势,识别出适合大模型应用的关键业务场景,并明确每个场景的具体需求和目标。第七步,基于选定的模型和业务需求,进行大模型应用的整体架构设计和功能模块设计,确定应用的技术架构、交互设计和用户体验方案。第十一步,根据企业需求和 IT 架构,选择合适的部署方式(如公有云、私有云、混合云),将经过测试和验证的大模型应用部署到企业生产环境中,并进行上线前的最终检查和准备工作,确保应用能够顺利上线运行。,即“模型即服务”。
2025-07-16 09:39:21
1172
原创 大模型面试宝典
模型的注意力机制是全局的,每个 token 都会与序列中其他 token 进行交互,其计算复杂度是 O(n^2),这在显存或内存上有较高开销,因此在训练阶段我们就需要设定一个最大的上下文长度,比如 2048 或 4096 个 token。BERT 用的就是掩码语言建模(MLM),它会把句子里一部分词换成 [MASK],然后让模型去猜被遮住的词是什么。因为模型在预训练时学会了看一句话的上下文,理解句子的语义,所以在做文本分类时,比如判断情感、话题、意图,只需要在上面接一个简单的分类器,模型就能表现很好。
2025-07-14 19:01:02
850
原创 大模型架构图汇总
AI大模型技术全景视图AI大模型通用技术架构图AI大模型通用技术架构图AI大模型通用技术架构图RAG知识库业务架构图AI农业大模型技术架构图AI导购大模型技术架构图AI大模型物联网AloT架构图AI大模型合规风控管理架构图AI大模型合规管理架构图AI大模型Agent平台架构图AI大模型+CRM架构图AI导购大模型架构图
2025-07-04 10:07:33
651
原创 基于本地知识库的政务问答智能体
首先判断用户的提问是否合规,对于合规的用户输入的问题进行分类,如果是非政务咨询类的问题,直接委婉回复咨询的问题不属于咨询范围。在支持数据的迁移适配的基础上,可以做多节点的部署、节点到节点的迁移,通过这些操作,可以有效的解决真实场景的高并发问题、升级问题、用户租户问题,真正将应用向产品化迈进。政务咨询系统通过精准解答、流程提效、数据驱动、安全可控四大核心能力,实现了从 “被动咨询” 到 “主动服务” 的升级,不仅降低了政务服务成本,更提升了公众满意度和政府公信力,是数字政府建设的重要基础设施。
2025-05-29 10:20:29
2402
2
原创 基于vllm-ascend的华为atlas大模型部署
或者,gpu-memory-utilization取值0-1之间,默认取值0.9,之所以增加gpu-memory-utilization参数,是因为DeepSeek 的"max_position_embeddings": 131072,远远大于qwen3的"max_position_embeddings": 40960。解释:比如跑Qwen3-8B 模型,--tensor-parallel-size=2 表示将一个层中的计算任务分成2份,在2个 GPU 之间并行执行。利用vllm进行部署,
2025-05-13 15:20:09
3853
1
原创 Dify平台下基于搜索引擎SearXNG 和文本转换工具Marp的PPT助手搭建
SearXNG 是一款免费、开源的元搜索引擎,能够聚合来自多达 200 多个搜索服务的结果,同时为用户提供强大的隐私保护。简单来说,SearXNG 是一个可以私有化部署的开源搜索引擎,既满足了用户对隐私的需求,又提供了灵活的自定义选项。2、基于marp生成的ppt质量很低,和主流的AIPPT差距天壤之别,更建议基于AIPPT来生成,但是AIPPT需要付费。- json,扩展数据返回格式,增加json,否则设置SearXNG插件,添加访问search接口会报错403。这里直接安装的windows版本exe。
2025-05-07 17:01:51
2326
原创 BERTSCORE:基于bert模型评估文本生成
论文提出BERTSCORE,一种基于 BERT 上下文嵌入的文本生成评估指标,通过计算候选文本与参考文本的 token 级余弦相似度(结合贪心匹配和可选的逆文档频率加权)评估语义等价性。重要的是,这些嵌入模型捕捉的是单词在上下文中的含义,而不是静态的单词表征。:候选文本(生成文本)和参考文本均使用与所使用的预训练模型(如 BERT、RoBERTa)相对应的标记化器进行标记化。:对于候选文本中的每个标记,BERTScore 会计算其与参考文本中每个标记的余弦相似度,从而创建一个相似度矩阵。
2025-04-29 11:15:03
2223
原创 大模型数据预处理方法总结
可以直接使用现有分词器,如 GPT-2 的分词器用于 OPT 和 GPT-3,而当语料库涵盖多个领域、语言和格式时,专门针对预训练语料库定制的分词器可能带来更多优势。该分类器通常使用从高质量数据源(例如维基百科)精选的数据作为正样本,将待评估数据作为负样本,进而训练一个二分类器,该分类器生成评分用于衡量每个数据实例的质量。这种方法通过设计一系列规则或策略来识别和删除低质量的数据,这些规则或策略基于对数据特性的理解和分析,可以提高数据的质量和可用性。常见的质量过滤方法包括基于分类器的方法和基于启发式的方法。
2025-04-24 20:10:37
2534
原创 QA抽取:
问题定义:QA 抽取,即从给定的文本中抽取出问题(Question)和答案(Answer)对,是自然语言处理(NLP)领域中的一项重要任务。在构建基于向量存储的知识库时,文档通常以叙述或对话形式存储。然而,用户的查询大多是问答形式。通过在向量化之前将文档转换为Q&A格式,我们可以提高检索相关文档的可能性,并减少检索不相关文档的风险。
2025-04-23 19:42:36
1253
原创 再读bert(Bidirectional Encoder Representations from Transformers)
再读 BERT,仿佛在数字丛林中邂逅一位古老而智慧的先知。初次相见时,惊叹于它以 Transformer 架构为罗盘,在预训练与微调的星河中精准导航,打破 NLP 领域长久以来的迷雾。而如今,书页间跃动的不再仅是 Attention 机制精妙的数学公式,更是一场关于语言本质的哲学思辨 —— 它让我看见,那些被编码的词向量,恰似人类思维的碎片,在双向语境的熔炉中不断重组、淬炼,将离散的文字升华为可被计算的意义。
2025-04-18 20:26:13
1318
原创 大语言模型的训练、微调及压缩技术
大语言模型(LLM)是非常庞大的深度学习模型,它们在大量数据上进行预训练。其底层的Transformer是一组神经网络,由具有自注意力能力的编码器和解码器组成。编码器和解码器从文本序列中提取含义,并理解其中单词和短语之间的关系。Transformer神经网络架构允许使用非常大的模型,这些模型通常包含数千亿个参数。如此大规模的模型可以摄取大量数据,这些数据通常来自互联网,也可以来自如包含超过500亿个网页的Common Crawl,以及约有5700万页面的维基百科等来源。语言和交流的过程可以简化为计算吗?语言
2025-04-18 16:00:08
1330
原创 基于政务问答的dify接口请求测试
在请求时,需先前往应用左侧导航的 “API Access” 部分,在此可查看文档和管理访问凭据。为保障安全,API 密钥应通过后端调用,避免在前端代码中暴露。而对话应用则调用 chat - messages API,首次调用发起对话,后续通过返回的 conversation_id 维持会话,实现与用户的持续问答交互。(1)通过接口请求和基于dify网页请求2者的结果基本是相同的,但是细节处还是有些差别,感觉应该是dify网页上还有一些后续的完善和处理的操作。代码中包含了阻塞式请求、流式请求2种请求方式。
2025-04-14 11:30:45
1250
原创 Langchat平台知识库测试
Gitee AI / 阿里通义 / 百度千帆 / DeepSeek / 抖音豆包 / 智谱清言 / 零一万物 / 讯飞星火 / OpenAI / Gemini / Ollama / Azure / Claude 等大模型。模型基于ollama配置的qwen、deepseek等模型。切片管理只可以进行删除操作,不能进行编辑。是Java生态下企业级AIGC项目解决方案,集成RBAC和AIGC大模型能力,帮助企业快速定制AI知识库、企业AI机器人。新建一个政务问答的智能体,并进行提示词、知识库、模型等的配置。
2025-04-07 19:38:54
652
原创 京东云智能体平台joybuilder v3.0.0测试
类似dify一样,有空间管理的概念,dify是一个用户一个工作空间,免费版不允许自己修改多用户多租户,主要是限制了to C的企业。(1)Dify的chunk分段不是很好,如果经过人工优化后,两者的效果是相当的。(2)比如第一个问题,joybuiler会把不相关的文件也召回,这点不如dify,但是回答的还是正确的。Joybuilder的空间比较灵活,没有那么多限制,一个用户可以同时开启多个空间,空间也有权限管理。知识库的召回模式也是默认的,没有像dify那样暴露较多,可以个性化设置。
2025-04-07 19:27:22
1305
原创 2025徘徊与坚守:在传统与变革间寻找自己
整体来说,我投的简历不多,大多数都是请假去面试的,有1个是中午面试的,其余周末面试的。思考了很多,12-13k的这种对于我现在的薪资来说,没啥竞争力,15-16K的这种有点意思了,但是不够,20k的这种可以说在我这样的小城市,诚意满满了。我这样的人,总是为被人考虑的多,为自己考虑的少,最终,活成了别人,忘记了自己,屠龙少年终成恶龙。另外一个问题就是内耗严重,这种内耗不是bat的那种996,人家是真真实实的做事创造价值,但是这确实自己人疲劳自己人,下班后的通知、电话,整的一个人“没钱没时间”。
2025-04-03 20:01:16
1027
原创 基于大模型的pc版语音对话问答
Solution类初始化语音合成引擎,在chat_with_ollama方法中,持续监听语音输入,调用 OpenAI 兼容模型获取回复,实现语音播报并更新对话历史。主程序初始化语音识别模型,启动各功能模块并开启 Tkinter 主循环,使应用程序能正常运行。网页端Web 语音 API,例如 Web Speech API 或者 Google Cloud Speech-to-Text API 等。采用vllm框架,部署DeepSeek-R1-Distill-Qwen-7B模型。模型下载,大概1.99G。
2025-03-28 12:13:16
1522
原创 大模型应用平台架构
MCP 是 Model Context Protocol(模型上下文协议),是一种开放标准协议,旨在为大型语言模型与外部数据源、工具和服务,提供标准化的双向通信接口,核心特性包括支持单一协议连接多种工具和服务、AI 智能体可动态发现可用工具、基于双向通信机制实现实时交互、本地与远程兼容,以及内置标准化访问控制确保安全等。HDD(机械硬盘)和 SSD(固态硬盘)作为数据的长期存储介质,HDD 适合大容量、对读写速度要求不太高的数据存储,而 SSD 以其高速读写性能,常用于存储需要频繁访问的数据。
2025-03-26 18:48:16
3193
原创 基于dify的语文作文批改agent
第二个节点,HTTP请求主要实现一个OCR识别的api post请求。实现过程,刚开始我是基于URL进行图片传递的,有问题,一直卡着过不去,后来换成基于bytes传递。第二个节点,LLM2选用的模型为Pro/Qwen/Qwen2-VL-7B-Instruct。思路1:基于OCR的思路进行作文文字的提取,再将提取的文字传给LLM进行点评。最后一个节点直接回复大模型的输出,LLM2/{x}text。第三个节点,LLM模型采用qwen2.5-14b的模型。其中OCR识别采用的百度的paddleOCR(
2025-03-25 10:34:46
1925
CarFace-Detection-Adaboost.zip
2017-09-13
( libboost.zip )
2017-09-03
2014facebookDeepLearningforVision:TricksoftheTrade.pdf
2017-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅