- 博客(2511)
- 资源 (69)
- 问答 (17)
- 收藏
- 关注
原创 Flink 高分笔记
这篇博客文章总结了Flink流计算相关的基础知识和实践指南。主要内容包括:1) 流计算基础概念,如事件时间、Watermark机制、Exactly-once语义;2) Flink基础操作,如安装部署、程序结构、并发设置、故障恢复;3) DataStream API核心功能,包括时间概念、窗口计算、状态管理、双流Join等;4) Table API与SQL的使用方法和工作原理。文章提供了丰富的技术文档链接,涵盖了Flink从入门到进阶的各个方面,既有理论讲解也有实践案例,是一个系统的Flink学习资源合集。
2025-06-22 22:50:13
1417
原创 Dify 实战:如何通过知识库实现专业性 AI 问答助手
本文介绍了Dify开源平台如何通过知识库功能解决企业数据检索难题。Dify知识库采用检索增强生成(RAG)技术,将私有数据与大语言模型结合,实现精准问答。文章详细讲解了知识库的创建流程,包括数据源选择、文本分段处理(通用/父子模式)和索引方式配置(高质量/经济型)。通过可视化操作界面,用户无需编程即可构建基于特定领域知识的AI应用,如智能客服、企业知识门户等。Dify知识库有效降低了AI应用开发门槛,同时通过检索私域数据显著提升了回答准确性,避免了大模型的
2026-03-14 09:41:39
531
转载 AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope Java 1.0正式发布,为企业级智能体应用提供全生命周期解决方案。该版本采用领先的ReAct开发范式,支持实时介入控制与高效工具调用,内置任务规划、结构化输出等强大功能。提供安全沙箱、上下文工程等企业级能力,易于集成现有技术栈,并具备高性能架构。依托阿里云生态,支持一键部署至百炼和函数计算平台。同时配备可视化调试、A/B测试等完整工具链,构建AI原生应用数据飞轮,助力智能体从实验室原型快速落地到实际业务场景。
2026-03-07 22:00:04
382
原创 DataX 入门:异构数据源离线同步
DataX是阿里巴巴开源的异构数据源离线同步工具,支持多种数据源间的稳定高效数据传输。采用Framework+Plugin架构,通过Reader和Writer插件实现数据采集与写入,Framework处理数据传输、缓冲等核心问题。DataX3.0支持单机多线程模式,通过任务切分和调度实现高并发同步,具备可靠的数据质量监控、丰富的数据转换功能、精准的速度控制和强劲的同步性能等核心优势。其插件体系覆盖主流数据库和大数据系统,每天可处理8万+作业,传输300TB+数据,在阿里巴巴内部长期稳定运行。
2026-03-07 10:23:17
385
转载 AgentScope 正式发布 Skills 支持 - 实现渐进式披露
本文提出了一种基于渐进式披露的Skill机制,用于解决大语言模型Agent系统中多能力管理的关键挑战。该机制通过分层加载策略,将知识分为元数据、指令和资源三个层次:启动时仅加载轻量级元数据(约100 tokens/Skill),执行时按需加载完整指令(约2k tokens),使用时动态获取相关资源。相比传统全量加载、多Agent或RAG方案,该方法在保持知识完整性的同时显著降低上下文占用(3k vs 20k tokens),支持无限扩展Skill数量。文章以电商客服场景为例,详细阐述了Skill的结构规范(
2026-03-05 23:04:21
630
原创 MCP 入门:什么是 MCP 模型上下文协议
MCP(Model Context Protocol)是2024年崛起的一项AI通用连接技术,旨在解决大模型与外部服务之间的交互难题。文章从三个方面介绍了MCP的核心价值: 问题背景:传统AI插件系统存在重复开发、接口不统一的问题,MCP通过标准化协议实现了"一次开发,多平台通用"的解决方案,类比为AI界的"USB-C接口"。 应用场景:MCP已广泛应用于生活服务、代码托管、数据操作等领域,使AI能够直接调用地图、GitHub、数据库等外部服务。 技术架构:采用&qu
2026-02-26 21:12:19
542
原创 Dify 实战:接入 Ollama 打造你的私有化本地大模型应用
本文介绍了如何将本地运行的Ollama大语言模型与Dify开发平台结合,构建完全私有的AI应用。通过Docker部署Dify并配置Ollama模型(如Qwen),用户可以在本地硬件上实现数据不出内网的AI解决方案。文章详细说明了环境准备、模型下载、Dify部署和模型配置步骤,并以旅游助手为例演示应用创建流程。这种组合方案具有数据隐私、低成本、灵活定制等优势,适合需要合规性和可控性的企业及开发者使用本地LLM构建各类AI应用。
2026-02-24 13:03:28
728
原创 AI高分笔记
本文整理了关于大模型应用开发的一系列实战文章,涵盖Dify、Ollama和Spring AI三大技术方向。Dify部分包括Docker部署、MCP Server接入和Firecrawl插件应用;Ollama涉及本地模型运行和Spring AI调用;Spring AI重点介绍ChatMemory对话应用开发。此外还包含多个行业实践案例,如喜马拉雅ChatBl、腾讯音乐OLAP结合大模型等技术探索,以及LangChain框架解析,全面展示了大模型在不同场景下的应用实践。
2026-02-23 10:20:53
748
原创 Spring AI 实战:通过 ChatMemory 构建有记忆的智能对话应用
随着大语言模型(LLM)的火热,聊天机器人、智能客服等对话式 AI 应用已经走进了我们的日常生活。但你可能不知道,大多数大模型本身是“健忘”的——它们每次接收请求都是独立的,并不会记住你和它之前聊了什么。为了让 AI 能够像人一样拥有“记忆”,我们需要在应用层面帮它存储和回顾历史对话。Spring AI 作为 Spring 生态中专为 AI 应用开发的利器,提供了一个叫做 ChatMemory 的组件,可以帮我们轻松管理对话历史。今天,我们就来手把手地学习如何使用它,打造一个真正有记忆的智能对话应用。
2026-02-23 10:19:00
758
原创 Ollama 实战:使用 Spring AI 调用 Ollama 本地大模型
Spring AI 让 Java 开发者能够以极低的成本接入 AI 能力,无论是调用云端 API 还是本地模型。结合 Ollama,你可以在完全掌控数据的情况下,为应用注入智能对话、文本生成等能力。
2026-02-22 10:03:47
781
原创 Ollama 实战:从零开始本地运行大语言开源模型
Ollama简化了大语言模型的本地部署流程,支持macOS、Linux和Windows系统。本文详细介绍了Ollama的安装方法(官网下载/脚本安装)、模型下载运行(如Qwen2.5:7b)以及API服务部署。通过简单的命令行即可实现交互式对话,并提供OpenAI兼容的API接口(默认11434端口),方便开发者集成到各类应用中。Ollama降低了LLM使用门槛,使本地运行大模型变得简单高效。
2026-02-21 18:51:30
884
原创 通过 Jenv 管理多 JDK 版本
Jenv 是一个轻量级的 Java 版本管理工具,支持在 macOS/Linux 上安装、切换和管理多个 JDK 版本。本文介绍了 jenv 的安装配置方法,包括通过 Homebrew 安装、环境变量设置以及常见问题解决。详细讲解了如何使用 jenv 添加和管理多个 JDK 版本(如 OpenJDK 和 Oracle JDK),以及如何设置全局、局部和临时 Java 版本。此外,还提供了从 jenv 中移除 JDK 的方法。jenv 通过简单的命令即可实现 JDK 版本切换,极大提升了 Java 开发环境的
2026-02-20 18:53:50
613
原创 Dify 实战:使用 Firecrawl 插件高效爬取微信公众号文章
本文介绍了如何利用Dify平台和Firecrawl插件构建微信公众号文章自动化采集系统。Dify作为开源LLM应用开发平台,结合Firecrawl的智能网页爬取能力,可轻松实现文章爬取、清洗和结构化存储。文章详细讲解了环境部署、插件安装以及工作流创建过程,通过可视化节点操作即可完成从URL输入到Markdown格式输出的全流程。该方案无需复杂代码,能有效解决反爬、动态渲染等问题,适用于知识库构建、模型训练等场景,显著提升开发效率。
2026-02-17 12:47:56
1169
原创 ClickHouse 实战:如何使用聚合组合器
ClickHouse 不仅支持标准聚合函数,还提供了大量更高级的函数以满足大多数分析场景的需求。除了聚合函数之外,ClickHouse 还提供了聚合组合器,这是对查询能力的强大扩展,能够应对海量复杂需求。
2026-02-05 23:19:27
619
转载 Prompt 实践:23 招教你掌握大模型提示词技巧
过去一个月,全球 AI 领域接连引爆"深水炸弹":推理成本直降 80% 的 Deepseek-R1 横空出世,OpenAI 对 GPT-4o 进行了迭代更新,马斯克的 xAI 推出 Grok 3 模型并声称性能超越ChatGPT … 在这场技术地震中,最引人注目的当属完全开源的 DeepSeek。这款主打深度推理的模型不仅性能碾压 GPT-3.5,在结构化思维层面甚至比肩 GPT-4。
2026-02-02 22:03:14
745
原创 Dify 实战:通过 Dify 快速接入 MCP Server
本文介绍了如何在Dify平台快速接入高德地图MCP Server。主要内容包括:获取高德开放平台Key并构建MCP配置地址;在Dify中添加MCP服务;创建Agent应用并配置提示词,通过调用MCP工具实现地理位置查询功能。整个过程展示了Dify原生支持MCP协议的优势,无需编写业务代码即可完成外部工具集成,主要依靠配置和提示词工程实现功能。最终成功验证了应用能正确调用高德地图API查询周边信息。
2026-02-01 22:11:08
932
原创 Dify 实战:使用 Docker Compose 部署 Dify
本文介绍了Dify开源平台的安装部署流程。首先明确了系统最低要求:2核CPU和4GB内存,并提供了macOS、Linux和Windows系统的Docker环境配置指南。随后详细说明了安装步骤:克隆1.9.1版本代码库,配置环境变量,使用docker-compose启动服务。最后通过容器状态检查确认了包括api、worker、web等9个核心服务的正常运行情况。该指南为开发者提供了完整的Dify平台本地部署方案,特别强调了不同操作系统下Docker环境的配置要点。
2026-02-01 19:38:57
537
原创 ClickHouse 实战:深入了解 MergeTree 家族 III 之 SummingMergeTree 表引擎
本文介绍了ClickHouse中的SummingMergeTree表引擎,该引擎用于预先定义聚合条件的汇总查询场景。文章首先分析了使用普通MergeTree表进行聚合查询的缺点,包括额外存储和查询开销。随后详细说明了SummingMergeTree的语法、特性及使用方式,包括指定/不指定求和列的区别、主键与排序键的设置原则,以及该引擎的最终一致性特点。最后指出在实际查询中仍需结合SUM和GROUP BY进行手动聚合以确保结果准确性。该引擎能有效减少数据行数并降低后续汇总查询开销。
2026-01-30 22:39:55
570
原创 ClickHouse 实战:深入了解 MergeTree 家族 II 之 ReplacingMergeTree 表引擎
ReplacingMergeTree是ClickHouse中用于数据去重的表引擎,通过合并数据分片时删除重复行实现"最终一致性"。它基于ORDER BY字段而非PRIMARY KEY去重,支持显式(指定版本列)和隐式版本控制策略,并可标记行状态(is_deleted)。由于去重是异步进行的,查询时需配合FINAL运算符确保结果准确。该引擎适合后台清理重复数据以节省存储空间,但不保证完全无重复数据,适用于对实时性要求不高的场景。
2026-01-27 23:17:00
685
原创 ClickHouse 原理:深入解析数据分片 Part
在 ClickHouse 的世界里,数据分片 Part 是一个核心概念,它直接影响到系统的存储效率、查询性能和数据管理方式。理解数据分片 Part 的工作原理,对于优化 ClickHouse 集群的性能至关重要。本文将从基础概念出发,逐步深入探讨 Part 的各个方面。
2026-01-24 22:07:18
1040
原创 ClickHouse 原理:深入理解数据分片 Part 和分区 Partition
本文介绍了ClickHouse中数据分片(part)与数据分区(partition)的概念及区别。数据分片是磁盘上的物理文件,存储于/var/lib/clickhouse目录下,每个MergeTree表有独立存储路径。通过system.parts系统表可查询分片信息,包括存储位置、分区情况等。数据分区则是通过分区键创建的逻辑划分,可提升大表性能和管理效率。文章还详细解析了分片目录命名规则,如all_3_3_0_5中各数字的含义,并展示了如何通过系统表查询这些信息。
2026-01-24 10:00:03
728
原创 ClickHouse 原理:如何为列式存储构建快速 UPDATE I:特别设计的专用引擎
ClickHouse通过将更新操作转化为插入新数据行的方式,巧妙地规避了列式存储中行级更新的性能瓶颈。本文介绍了ReplacingMergeTree等专为高效更新设计的引擎原理:通过后台合并机制自动保留最新版本数据,实现高吞吐写入与更新。这种"插入代替更新"的架构充分利用ClickHouse强大的并发插入能力,使其在大规模数据场景下仍能保持卓越性能。文章还详细解析了数据分片的结构与合并机制,为理解ClickHouse独特的更新实现方式奠定基础。
2026-01-20 23:28:50
811
原创 ClickHouse 实战:深入了解 MergeTree 家族 I 之 MergeTree 表引擎
在当今的大数据时代,高效的数据存储与查询是每个数据工程师面临的挑战。ClickHouse 作为一款开源的列式数据库管理系统,凭借其卓越的查询性能在 OLAP 场景中脱颖而出。而这一切的核心基础,正是 MergeTree 引擎家族。作为 ClickHouse 中最重要、最复杂的表引擎,MergeTree 的设计哲学值得每一个数据从业者深入理解。
2026-01-18 22:15:38
970
原创 MinIO 实战:通过 Java API 实现 MinIO 基本操作
本文介绍了MinIO对象存储系统的基本概念及其Java SDK的使用方法。主要内容包括环境准备(MinIO服务部署和Maven依赖配置)以及Bucket和Object的核心操作指南。详细讲解了Bucket的创建、存在性检查、列表查看和删除方法,以及Object的上传、下载、元数据获取、列表查看、删除和复制等操作。通过代码示例展示了如何使用MinioClient进行初始化以及各项功能的实现,为开发者提供了与MinIO服务器交互的实用参考。所有示例代码均可在GitHub上获取。
2025-12-06 11:37:37
1099
原创 SpringBoot 实战:Spring Boot 集成 FreeMarker
摘要:本文详细介绍了如何在Spring Boot项目中高效集成FreeMarker模板引擎。文章首先分析了FreeMarker的核心优势,包括简洁语法、强大功能和性能优势。然后通过具体示例展示了项目搭建过程,重点讲解了FreeMarker在Spring Boot中的详细配置参数及其作用,如缓存设置、编码配置、模板路径等。最后提供了完整的YAML配置示例,帮助开发者根据开发和生产环境需求进行灵活配置,实现业务逻辑与视图展示的清晰分离。
2025-11-29 12:03:29
1328
原创 Firecrawl 实战:使用 Docker compose 本地化部署 Firecrawl
Firecrawl是一个高效的网络爬虫工具,本文介绍了使用Docker Compose进行本地化部署的完整流程。首先需要安装Git、Docker Engine和Docker Compose等前置工具,然后克隆项目仓库并配置环境变量。在构建容器时可能会遇到Go模块下载失败的问题,解决方案是修改Dockerfile设置国内代理。最后通过Docker Compose命令构建并启动包含API服务、工作进程、Playwright微服务和Redis数据库的多个容器。该部署方法简化了Firecrawl的本地运行环境搭建过
2025-11-23 00:59:30
1211
转载 货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
货拉拉基于Apache Doris构建高效画像计算系统,实现人群标签批量计算与秒级圈选。面对3000+标签、5万+人群的业务规模,Doris通过宽表、高表和人群位图表三类存储模型协同工作,支撑精细化运营需求。系统采用位图计算为核心的异构查询方案,实现宽表、高表及人群表的无缝联动,查询性能提升30倍,内存开销降低50%。该架构支持无限层级规则嵌套,允许人群依赖计算,大幅提升营销活动效率。
2025-11-17 22:52:32
656
转载 数仓设计 I:数据模型架构的四层七阶,数据湖仓建模的第一块基石
本文深入探讨了数据仓库的分层架构设计原则。文章提出了"四层七阶"的分层模型:1)ODS层作为原始数据存储;2)DW层为核心数据处理区,细分为DWD(明细)、DWM(中间)和DWS(汇总)三层;3)APP层面向应用服务;4)维表层专供维度管理。作者强调分层设计应遵循五大原则:高内聚低耦合、核心与扩展分离、公共逻辑下沉、成本性能平衡、数据可回滚。同时指出主题域划分可按业务过程或数据域两种方式,最终目标是构建清晰、稳定、可扩展的数据架构,为业务提供准确高效的数据支撑。
2025-11-16 23:00:22
158
原创 Apache Paimon 入门 如何选择表模式
Apache Paimon数据湖支持多种表模式,包括主键表和Append表。主键表支持CDC数据变更处理,分为固定桶和动态桶模式,分别适用于分区内更新和跨分区更新场景。Append表则针对仅插入数据的场景,提供Scalable和Queue两种模式,前者适合高吞吐流处理和增强型Hive表场景,后者适用于严格顺序消费的需求。每种表模式均经过生产验证,用户可根据具体需求选择合适的数据处理方式。
2025-11-16 22:11:55
1100
原创 深入解析基于 RoaringBitmap 实现的 Bit Slice Index (BSI)
然后对二进制数据从低位向高位遍历,将第 i 位值为 1 的 user_id 存入切片 RoaringBitmap 的 slices[i] 中,形成位切片索引 BSI(Bit Slice Index)。剩下最重要的事情就是为 BSI 添加新的 KV,核心逻辑是在 value 二进制位对应切片 RoaringBitmap 中添加 key:从低位到高位遍历切片 RoaringBitmap,如果 value 二进制位对应的 bit 为 1 则对应的切片 RoaringBitmap 添加 key。
2025-11-16 22:03:36
623
原创 Maven 实战:Failure to find com.github.RoaringBitmap.RoaringBitmap:roaringbitmap:jar
摘要:Maven项目配置RoaringBitmap依赖时出现下载失败问题,错误显示阿里云镜像中未找到该依赖。分析表明Maven镜像配置将阿里云设为全局镜像,覆盖了JitPack仓库请求。解决方案分两步:1)在pom.xml中添加JitPack仓库配置;2)修改settings.xml文件,通过添加!jitpack.io将JitPack仓库从阿里云镜像覆盖中排除。这样可确保RoaringBitmap依赖从正确的仓库下载。
2025-11-15 10:17:11
546
原创 用户画像实战:使用 RoaringBitmap 存储画像标签
摘要:本文探讨了用户画像标签存储方案,指出宽表存储在超大规模场景下存在效率问题,推荐使用Bitmap索引方案。文章分析了属性标签和行为标签的不同特点,提出属性标签适合Bitmap压缩存储,并通过实例说明如何避免多列层级关系导致的错误。实践部分展示了将宽表转换为Bitmap表并利用位图运算实现高效查询的方法,同时强调了对字符型用户ID进行整数编码的必要性,推荐使用RoaringBitmap和自定义Hive函数实现位图计算。该方案适用于标签数量多、数据规模大的场景,能显著提升查询性能。
2025-11-08 22:53:38
703
原创 源码解读 | Flink SQL 深入了解 TableFactory 发现机制
可扩展性:基于 SPI 机制,支持用户自定义扩展灵活性:通过多级匹配策略处理复杂的 TableFactory 选择场景错误诊断:提供详细的错误信息帮助用户调试配置问题。
2025-11-02 22:18:52
1020
转载 深入解读 Flink SQL 1.11
自 2019 年初阿里巴巴宣布向 Flink 社区贡献 Blink 源码并在同年 4 月发布 Flink 1.8 版本后,Flink 在社区的活跃程度犹如坐上小火箭般上升,每个版本包含的 git commits 数量以 50% 的增速持续上涨, 吸引了一大批国内开发者和用户参与到社区的生态发展中来,中文用户邮件列表(user-zh@)更是在今年 6 月首次超出英文用户邮件列表(user@),在 7 月超出比例达到了 50%。假设你在一个电商公司,订单和物流是你最核心的数据,你想要实时分析订单的发货情况。
2025-11-01 22:11:51
183
apache-mahout-distribution-0.11.1-src
2015-11-30
Android开发秘籍
2015-12-17
log4j-1.2.17
2015-11-30
LINUX内核设计与实现
2015-12-14
JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发
2015-12-17
Android技术内幕.系统卷
2015-12-17
Android高级编程
2015-12-17
Android开发精要
2015-12-17
重构-改善即有代码的设计
2015-12-14
Mahout算法解析与案例实战
2015-12-16
apache-maven-3.3.9-bin
2015-11-30
算法艺术和信息学竞赛
2015-12-14
Better bitmap performance with Roaring bitmaps
2023-03-06
美团外卖离线数仓建设实践
2023-02-19
log4j所需jar包
2016-01-20
Hadoop实战中文版
2015-12-25
Spring-Jar-4.2.4
2016-01-28
Apache Spark源码剖析
2016-11-12
大型网站技术核心原理与案例分析
2015-12-25
Shell脚本学习指南
2016-05-28
Android应用开发揭秘
2015-12-17
Redis 入门指南
2017-06-02
精通Spring
2016-02-07
Hive Range Between 结果错误问题
2023-02-28
Storm Trident 抛异常不重发
2018-11-23
hive SERDEPROPERTIES 实现正则过滤
2018-06-05
Flink 关于窗口Window的问题
2018-01-17
Hive 运行SQL 重定向文件 输出WARN日志
2017-06-13
Hadoop Distcp报错 队列问题
2017-01-17
Hive Join 失败
2016-11-28
Hive 查询问题
2016-09-07
Hive LOAD DATA 错误
2016-07-23
[ElasticSearch] 中文字符串精确搜索 term 搜不到结果
2016-07-05
mysql group by 统计问题
2016-06-17
大型分布式网站架构的演进
2016-05-16
ubuntu IntelliJ Idea设置快捷方式问题
2016-03-08
罗技键盘 k380 连接上 没有任何的反应?
2016-03-06
Maven archetype:generate报错
2016-01-25
Log4j问题
2016-01-16
Java Stringbuilder调用append()方法报错
2015-12-20
nosql开放性问题
2015-12-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2