- 博客(324)
- 收藏
- 关注
原创 Paraformer语音识别-中文-通用-16k-离线-large-长音频版
摘要: Paraformer-large是由阿里巴巴达摩院开发的非自回归端到端语音识别模型,支持长音频(数小时)的VAD、ASR、标点与时间戳功能,适用于语音输入法、会议纪要等场景。其核心包括Predictor模块(基于CIF准确预测文字个数)和双向Decoder(增强上下文建模),在中文公开数据集上达到SOTA效果。用户可通过ModelScope进行推理,支持多种音频输入格式(如wav、pcm、url等),并可自由组合VAD/PUNC模型。相比FunAudioLLM(通义实验室研发,侧重多模态与情感识别)
2025-06-12 03:21:09
674
原创 阿里云开源音频基座大模型 FunAudioLLM=SenseVoice+CosyVoice
阿里通义实验室开源音频基座大模型FunAudioLLM,包含SenseVoice和CosyVoice两大模型。SenseVoice支持50+种语言识别,中文准确率提升50%,兼具情感辨识和环境音检测;CosyVoice可实现3-10秒音色克隆,支持中英日粤韩五语种合成和情感语音控制。该模型在语音翻译、情感对话、互动播客和有声读物等场景表现优异,其在线体验显示生成语音自然流畅,超越ChatTTS等竞品。目前用户可通过魔搭社区体验多语言音频生成功能。
2025-06-12 02:57:38
386
转载 ChatTTS震撼上线:支持笑声与停顿控制的高质量语音合成模型
ChatTTS是一款专为对话场景设计的开源语音合成工具,以其自然流畅的韵律和灵活的细粒度控制能力引发关注。该模型支持中英文混读,可自由调节音色,并能通过简单标记插入笑声、停顿等情感表达,效果接近真人对话。ChatTTS在自媒体、电商直播、在线教育等领域具有广泛应用前景,但30秒以上音频生成仍存在不稳定性。开发者强调需遵守伦理规范,开源版本已内置安全防护措施。目前提供4万小时训练模型,用户可通过GitHub或官网Demo体验这一突破性的语音合成技术。
2025-06-12 02:29:51
8
原创 PaddleOCR图片文字提取
摘要:百度开源的PaddleOCR 3.0是一款功能强大的OCR工具包,支持80多种语言识别,包括中文手写体和复杂版面。其核心优势在于全流程OCR解决方案、轻量级模型设计和丰富的预训练模型。用户可通过可执行程序、Python API或源码编译三种方式使用,适用于从日常办公到企业开发的多场景需求。PaddleOCR 3.0新增五大文字类型识别、文档高精度解析和智能文档理解三大能力,识别精度较上代提升13%,已成为开源OCR领域的首选工具。
2025-06-12 01:58:11
626
原创 Project Reactor响应式编程简介
Reactor是一种事件驱动的高性能网络编程模型,其核心是发布-订阅机制。发布者(Publisher)如Flux/Mono提供数据流,订阅者(Subscriber)通过回调接收数据(onNext)、异常(onError)或完成信号(onComplete)。订阅(Subscription)连接两者并支持背压控制,让消费者能调节数据接收速度。数据从生产者流向消费者,构建异步非阻塞的数据流。典型流程包括:订阅建立→请求数据→数据发射→完成/错误处理。理解冷热流、背压等概念对设计响应式系统至关重要,是Spring
2025-06-11 23:33:55
746
原创 一文读懂WebFlux框架和WebClient响应式http客户端
摘要:Spring WebFlux是Spring 5引入的响应式Web框架,基于Reactive Streams规范。WebClient是其提供的非阻塞HTTP客户端工具,适用于高并发场景。相比传统RestTemplate,WebClient采用非阻塞IO模型,支持异步/同步请求,通过Mono和Flux处理响应数据。文章详细介绍了WebClient的API使用,包括创建实例、请求构建、响应处理(retrieve/exchange方法对比)、过滤器配置等,并分析了直接返回Flux与调用subscribe的区别
2025-06-11 22:38:27
577
原创 Java 16 引入的 record 类型
Java 16引入的public static record是数据类的精简实现,适用于DTO等场景。record自动生成构造器、equals等方法,字段不可变。定义在类内部时需加static以避免持有外部类引用。其特性包括:仅支持接口实现、不可继承、不可修改字段。在Spring Boot中特别适合用于API响应封装。这种语法大幅减少了样板代码,但仅支持Java 16及以上版本。
2025-06-10 15:42:46
273
原创 OpenAI 聊天补全生成接口规范
OpenAI 提供的聊天补全生成接口(Chat Completion API)是其用于多轮对话生成的核心 API 之一,广泛应用于 GPT-3.5 和 GPT-4 等模型。以下是该接口的详细规范,基于 OpenAI 官方文档整理。
2025-06-10 10:36:21
614
原创 ASR、TTS与语音克隆技术简介
语音技术综述:ASR、TTS与语音克隆 语音技术涵盖三大核心领域:语音识别(ASR)通过深度学习模型(如Transformer)将语音转为文本,应用于客服、搜索等场景;语音合成(TTS)采用拼接法或参数法(如WaveNet)生成自然语音,支持多语言与情感控制,适用于导航、有声读物;语音克隆利用GAN/VAE技术,仅需少量样本即可复制音色,但存在伦理风险。协同应用如智能客服系统整合ASR、NLP与TTS,提升交互体验。开源工具(如Kaldi、FishSpeech)和商业API推动技术普及,需平衡创新与安全。
2025-05-30 16:33:26
1010
原创 一文读懂MCP模型上下文协议
MCP(Model Context Protocol) 是一种由 Anthropic (Claude 大模型母公司)于 2024 年 11 月发布的开源协议,旨在标准化大型语言模型(LLM)与外部数据源和工具的交互。它像“AI的USB-C接口”,通过统一接口让 AI 模型无缝连接数据库、文件、API 等外部资源。MCP 通过客户端-服务器架构(MCP Client 和 MCP Server)实现,广泛应用于 AI 助手、开发工具等场景,助力构建更智能、互联的 AI 应用。
2025-05-30 02:17:31
706
原创 SpringAI系列4: Tool Calling 工具调用 【感觉这版本有bug】
Spring AI 中的工具调用使 AI 模型能够与外部工具和服务交互,从而增强其功能。Tool Calling 工具调用允许 AI 模型执行外部函数、访问外部服务、执行复杂操作和与现有系统集成主要使用的场景:信息检索(Information Retrieval)。此类工具可用于从外部资源(如数据库、Web服务、文件系统或者 WEB 搜索引擎)检索信息。目标:增强模型的知识,使其能够回答其其它方式不能回答的问题。例如,工具用于检索给定的位置天气、检索最新的新闻文章或者查询数据库。
2025-05-30 00:53:02
1200
原创 Spring AI 系列3: Promt提示词
本文介绍了SpringAI中Prompt提示词的设计与应用。Prompt作为引导AI模型生成输出的输入工具,其结构和内容直接影响模型响应质量。文章详细解析了Prompt API的核心组件,包括Message接口、MessageType角色分类以及PromptTemplate模板引擎。系统阐述了三种Prompt构建模式:逐层构建(适用于复杂场景)、预构建Prompt对象(适合批量处理)和快捷方式(简单问答场景)。同时介绍了响应处理机制,包括获取元数据监控性能和将输出自动映射为Java对象的技术实现。这些功能使
2025-05-29 11:58:14
1097
原创 AI流式输出的实现技术
SpringAI通过两种技术实现流式输出:一是基于Servlet的SpringMVC使用SseEmitter实现SSE协议,二是基于响应式编程的SpringWebFlux采用Reactor模型。其中SpringAI的流式输出底层采用与WebFlux相同的Reactor技术,通过异步非阻塞方式分批次传输AI生成内容,尤其适合大模型响应场景。SpringAIAlibaba作为国内最佳实践,继承了Spring生态优势,整合了阿里云AI能力,提供模型调用、Prompt模板等功能。这两种流式输出技术都能有效提升用户体
2025-05-29 08:43:48
1064
原创 Spring AI 系列2: Advisors增强器简介
Spring AI 增强器(Advisors)API 提供了一种灵活方式拦截和增强 AI 交互。核心功能包括:1)通过上下文数据(自定义数据/对话历史)增强提示;2)链式执行增强器,顺序决定处理流程;3)支持流式与非流式处理模式。主要组件包括 Advisor 接口、AdvisedRequest/Response 及上下文共享机制,开发者可创建日志记录、内容安全等定制增强器。内置增强器涵盖对话记忆管理(MessageChatMemoryAdvisor)、问答检索(QuestionAnswerAdvisor)等
2025-05-29 04:29:54
678
原创 Spring AI 系列1: ChatMemory聊天记忆总结
Spring AI 中的的ChatMemory(聊天记忆)提供了维护 AI 聊天应用程序的对话上下文和历史的机制。聊天记忆使 AI 应用程序能够:维护对话历史、提供上下文感知的响应、实现不同的记忆策略、管理对话状态。
2025-05-29 03:31:39
879
原创 Spring AI 开发模式:三层灵活选择
SpringAI 1.0提供三层开发抽象,满足不同项目需求:1)自动配置模式,快速启动原型开发;2)手动配置模式,灵活定制企业应用参数;3)底层API模式,完全掌控高级集成需求。开发者可根据项目复杂度自由选择,从零配置快速启动到深度定制模型行为,实现从简单应用到高性能优化的全覆盖。
2025-05-29 01:58:30
244
原创 Spring AI 中 ChatClient常用方法
摘要: ChatClient是SpringAI中简化AI交互的API组件,支持Deepseek、Qwen等主流模型。通过链式调用整合提示词管理、流式响应处理等功能,核心优势包括: 功能封装:自动拼接系统/用户提示,支持温度、Token数等参数配置; 多模态扩展:可处理图像/音频输入(需模型支持); 执行方式:提供同步(call())、流式(stream())及结构化解析(entity())三种响应模式; 记忆管理:通过withMemory()绑定历史会话上下文。典型应用如技术咨询场景:通过defaultSy
2025-05-29 01:31:52
1121
原创 Spring AI框架快速入门
SpringAI 1.0正式发布:简化Java应用AI集成 SpringAI 1.0于2025年5月20日正式发布,标志着Spring生态全面拥抱人工智能技术。该项目旨在简化生成式AI在Java应用中的集成,提供统一API支持主流大模型(如GPT、Gemini等)和向量数据库(如Pinecone、Milvus)。 核心特性包括:1)标准化API抽象,实现供应商无关的模型调用;2)简化RAG等复杂场景开发,内置ETL框架和向量存储组件;3)深度集成SpringBoot,支持自动配置和响应式编程。开发者可通过C
2025-05-28 18:16:35
961
原创 SpringBoot集成Tika实现文档解析
Apache Tika是一款开源的内容分析工具包,能自动检测并提取1000+种文件类型(PDF、Word、Excel等)的元数据和文本。核心功能包括:MIME类型检测、多语言识别、流式解析大文件。提供Detect(类型/语言检测)和Parse(内容提取)两大核心方法,支持自动调用专用解析器(如PDFParser)。集成SpringBoot时需注意大文件内存管理、字符编码配置,解析结果可能需二次处理(如HTML标签清理)。典型应用场景包括搜索引擎索引、文档管理系统和数据分析。
2025-05-27 14:12:49
750
原创 向量数据库系列2:开源向量数据库Milvus
在执行查询时,面向列的数据库只读取查询中涉及的特定字段,而不是整行,这大大减少了访问的数据量。此外,对基于列的数据的操作可以很容易地进行向量化,从而可以一次性在整个列中应用操作,进一步提高性能。Milvus 是一个开源的、高性能、高扩展性的向量数据库,专门用于处理和检索高维向量数据。它支持多种数据类型,适用于不同的属性模型,包括常见的数字和字符类型、各种向量类型、数组、集合和 JSON,为您节省了维护多个数据库系统的精力。此外,Milvus 的各个组件都有很好的解耦,其中最关键的三项任务--
2025-05-07 15:08:16
1025
原创 向量数据库系列1:一文读懂向量数据库
向量数据库(Vector Database)是一种专门用于存储、管理和查询高维向量数据的数据库系统。随着人工智能(尤其是深度学习和自然语言处理)的快速发展,向量数据库成为处理非结构化数据(如图像、文本、音频等)的核心工具,广泛应用于相似性搜索、推荐系统、语义分析等场景。
2025-05-07 11:52:49
1177
原创 一文读懂智能体(Agent)
Agent,即智能体,是一种能够感知环境、进行推理并采取行动的智能系统。它通常具有自主性,能够在没有人类干预的情况下独立运作。AI Agent的核心功能包括感知、决策和执行,通过这些功能在复杂的环境中自主完成任务。简单来说,智能体就是“能自主执行任务的AI实体”。传统AI(如ChatGPT)主要依靠用户输入指令,而智能体(Agent)可以自主思考、决策,并执行复杂任务,就像一个AI助手,能够独立完成多步操作。
2025-04-22 16:02:42
942
原创 智能体(Agent)与工作流(Workflow)的区别
工作流是指一系列按照预定义规则和顺序执行的任务或步骤,通常用于描述业务流程或操作的结构化执行路径。它强调的是过程的标准化和自动化,确保任务按部就班地完成。核心特点:固定流程、规则驱动、可预测。例子:在软件开发中,一个典型的工作流可能是“代码提交 -> 代码审查 -> 测试 -> 部署”,每个步骤都有明确的前后依赖和触发条件。简单来说,工作流是蓝图,Agent 是执行者。工作流提供清晰的步骤和秩序,适合可预测的任务;Agent 则赋予系统智慧和灵活性,应对复杂多变的环境。
2025-04-22 15:44:41
991
原创 一文读懂RAG检索增强生成
大模型(Large Language Model,LLM)的浪潮已经席卷了几乎各行业,但当涉及到专业场景或行业细分领域时,通用大模型往往面临专业知识不足的问题。相对于成本昂贵的“Post-Training”或“Supervised Fine-Tuning”(监督微调,SFT),基于RAG的技术方案成为了一种更优选择。RAG技术标志着大模型应用从「依赖预训练知识」转向「动态知识融合」,成为企业AI落地的核心架构。掌握RAG不仅需要理解技术原理,更要在实战中不断调优分块策略、检索算法和生成提示。
2025-04-22 15:13:39
760
转载 技术人的大模型应用初学指南
AI:Artificial Intelligence的缩写,指“人工智能”,人工智能是指模拟人类智能的计算机系统或软件,使其能够执行诸如学习、推理、问题解决、感知、语言理解等复杂任务。生成式AI:是一种人工智能技术,能够自动生成新的内容,如文本、图像、音频和视频等。与传统的AI不同,生成式AI不仅能分析和理解数据,还能基于其学习到的信息创造出新的内容。AIGC:AI Generated Content的缩写,意指由人工智能生成的内容。
2025-04-22 13:12:13
50
转载 算力领域常用名词解释
本文系统地整理和解释了算力领域中常用的数十个关键名词,并按照以下维度进行了分类:基础概念、系统架构、硬件架构、基础运算类型、计算模式、相关软件架构与部署模式、浮点精度格式、算力类型、算力关联与服务、算力评估指标以及算力战略概念。是指计算机系统处理数据的能力。它通常用FLOPS(每秒浮点运算次数)来衡量,表示计算机在一秒内可以执行多少次浮点运算。常见的单位包括TFLOPS(万亿次浮点运算/秒)和PFLOPS(千万亿次浮点运算/秒)。
2025-04-22 10:56:26
58
原创 Docker Compose 和 Kubernetes(k8s)区别
前言:Docker Compose 和 Kubernetes(k8s)是容器化技术中两个常用的工具,但它们的定位、功能和适用场景有显著区别。:运行容器化的应用负载(Pod),每个节点包含 kubelet、kube-proxy 等组件。:通过 CNI(容器网络接口)和 CSI(容器存储接口)插件扩展功能。:企业级容器编排平台,解决生产环境中的复杂性、弹性和可靠性需求。:自动化管理跨多个节点的容器部署、调度和生命周期。:自动重启崩溃的容器、替换不可用节点上的 Pod。
2025-04-21 20:39:28
1367
原创 Docker 镜像、容器和 Docker Compose的区别
Docker 的镜像、容器和 Docker Compose 是容器化技术的核心组件,以下是对它们的详细解析及使用场景说明。镜像是只读模板,包含运行应用程序所需的代码、依赖、环境配置等。类似于“软件安装包”;容器是镜像的运行实例,包含独立的进程、文件系统和网络空间,类似“轻量级虚拟机”;Docker Compose定义用于定义和运行多容器应用的工具,通过 YAML 文件(docker-compose.yml)配置服务、网络、卷等。
2025-04-21 16:38:00
1410
原创 DeepSeek-R1的量化版、蒸馏版和满血版区别
DeepSeek-R1的量化、蒸馏版本和满血版是三种不同的模型变体,主要区别在于参数规模、性能表现以及适用场景。
2025-02-10 17:04:36
12070
原创 区块链全球性技术
区块链(Blockchain)是一种去中心化的分布式账本技术,它通过将数据记录在多个节点上,并以加密方式确保这些记录的安全性和不可篡改性。区块链最初是作为比特币的底层技术被提出,以其独特的去中心化、安全性和透明性,正在改变我们处理数据和进行交易的方式。尽管仍面临一些技术和法规上的挑战,但它已经展现出巨大的潜力,并将继续推动各行业的创新和发展。
2024-12-24 11:43:45
2654
原创 可信数据空间和隐私计算常见术语总结
可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。本文件所称可信数据空间、数据空间、空间的含义相同。数据提供方、数据使用方、数据服务方、可信数据空间运营者等,依据既定规则,围绕数据资源的流通、共享、开发、利用进行互动和协作,共同构建的以价值共创为导向的生态系统。在可信数据空间中使用数据资源的主体,依据与可信数据空间运营者、数据提供方等签订的协议,按约加工使用数据资源、数据产品和服务。
2024-12-24 11:09:59
1632
原创 JVM从入门到放弃
关于JVM,其实有很多大厂开发了不同版本的JVM,比较知名的有:Sun HotSpot VM、BEA JRockit VM、IBM J9 VM、 Azul VM、 Apache Harmony、 Google Dalvik VM、 Microsoft JVM等等。现在使用的比较多的JDK8版本就是Sun HotSpot VM与BEA JRockit VM合并之后开发出的JDK版本。
2024-08-04 23:36:19
1388
原创 哪些场景会产生OOM?线上遇到OOM怎么解决?
线上如遇到 JVM 内存溢出,可以分以下几步排查jmap -heap查看是否内存分配过小查看是否有明显的对象分配过多且没有释放情况jmap -dump导出 JVM 当前内存快照,使用 JDK 自带或 MAT 等工具分析快照如果上面还不能定位问题,那么需要排查应用是否在不断创建资源,比如网络连接或者线程,都可能会导致系统资源耗尽如果线上遇到了OOM,该如何解决?Arthas(阿尔萨斯)的基本使用。
2024-08-04 23:27:36
1891
原创 最常见的AI大模型总结
针对“文生图”、“文生文”和“文生视频”的分类,下面列出一些当前较为知名的开源大模型。自2022年11月30日Chat GPT发布以来, AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮 。 国内学术和产业界在过去一年也有了实质性的突破 。 大致可以分为三个阶段, 即准备期 (Chat GPT发布后国内产学研迅速形成大模型共识) 、 成长期 (国内大模型数量和质量开始逐渐增长) 、爆发期 (各行各业开 源闭源大模型层出不穷, 形成百模大战的竞争态势) 。
2024-08-04 23:19:37
4523
转载 AI大模型常见术语科普
当我们把AI大模型视作人的大脑时,调用AI大模型就如同调用一个人的智慧。将AI大模型人格化,意味着它应该能够理解人类的语言和用人类的语言直接给出结果。然而,重要的是要认识到,尽管AI大模型可以提供快速的答案,但这些结果并不总是完全准确。在AI大模型的推理基础上,我们采用了多种技术手段来实现真正的AGI(通用人工智能),这些技术包括Prompt、RAG、Agent、知识库、向量数据库和知识图谱等。这些技术各自有其独特的作用和优势,但同时也相互关联,共同推动着AGI的发展。
2024-07-09 22:28:51
474
原创 Feed流架构设计
在信息学里面,Feed其实是一个信息单元,比如一条朋友圈状态、一条微博、一条新闻或一条短视频等,所以Feed流就是不停更新的信息单元,只要关注某些发布者就能获取到源源不断的新鲜信息,我们的用户也就可以在移动设备上逐条去浏览这些信息单元。Feed流本质上是一个数据流,是将 “N个发布者的信息单元” 通过 “关注关系” 传送给 “M个接收者”。发布者产生数据,然后数据需要按照发布者组织,需要根据发布者查到所有数据,比如微博的个人页面、朋友圈的个人相册等。关注关系。
2024-07-01 00:12:37
2154
原创 一文读懂数据中台
数据中台的目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用。下图所示为数据中台总体架构图,数据中台是在底层存储计算平台与上层的数据应用之间的一整套体系。数据中台屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,让数据的使用成本更低。通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务。数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转。
2024-06-11 17:10:48
536
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人