- 博客(102)
- 收藏
- 关注
原创 数据治理:数据质检规则分类
数据质检规则设计是确保数据质量的核心环节,主要包括六大维度:1)完整性规则(检查必填字段非空和存在性);2)有效性规则(验证格式、值域、代码值和逻辑一致性);3)准确性规则(通过交叉验证和业务规则确保数据准确);4)一致性规则(检查跨字段、跨表和跨系统的一致性);5)唯一性规则(验证主键和业务键的唯一性);6)时效性规则(监控数据新鲜度和延迟)。建议采用规则元数据管理、分级处理、可视化报告和自动化流程来系统化实施质检,确保数据的可靠性和可用性。
2025-08-29 11:49:11
358
原创 数据质检之springboot通过yarn调用spark作业实现数据质量检测
摘要:本文介绍了在Spring Boot应用中通过YARN调用Spark作业进行数据质检的架构方案。核心采用解耦设计,将Web服务与大数据处理分离,由Spring Boot作为客户端提交作业到YARN集群。重点解析了Spark on YARN的两种模式(yarn-cluster和yarn-client)及适用场景,并详细对比了两种实现方式:通过ProcessBuilder调用spark-submit脚本和使用SparkLauncher API。文章提供了完整的代码示例,强调生产环境推荐采用yarn-clus
2025-08-29 11:08:42
604
原创 Logstash数据迁移之syslog-to-kafka.conf详细配置
这个配置为你提供了一个强大、灵活且可扩展的中央日志收集管道,几乎可以处理任何产生Syslog的设备或应用程序的日志。:将网络设备、服务器等配置为将Syslog发送到运行Logstash的机器的指定端口。一个非常实用的场景是将不同来源或类型的日志发送到不同的 Kafka Topic。假设有一条 Syslog 消息,其 PRI 部分为。这就为后续的搜索、筛选和可视化打下了坚实的基础。在标准的 Syslog 消息中,消息开头有一个。字段(即PRI值),然后将其拆解,生成直观的。二、核心解析引擎与过滤器分析。
2025-08-29 10:00:00
622
原创 Logstash数据迁移之kafka-to-es.conf详细配置
本文介绍了使用Logstash将Kafka数据传输到Elasticsearch的完整方案。主要内容包括:核心架构(Kafka→Logstash→ES)、详细配置文件示例(输入/过滤/输出三部分)、关键配置解析(消费者组、偏移量管理、JSON解析等)以及最佳实践建议(幂等写入、错误处理、索引管理等)。文中特别强调了日期处理、字段清理、文档ID设置等重要环节,并提供了调试和错误处理方案,如死信队列配置。该方案支持SSL认证、批量提交优化等高级功能,适用于生产环境的大规模日志处理场景。
2025-08-29 09:30:00
1011
原创 Logstash数据迁移之mysql-to-kafka.conf两种路由决策对比
本文对比了两种数据路由模式的差异:基于业务语义的if [type] == "tbl_api"和基于技术源的if [@metadata][input][id] == "jdbc_input_orders"。前者通过业务类型字段进行分类,具有高灵活性和可读性,适合同一输入源产生多种业务数据的场景;后者直接绑定输入源ID,配置简单但耦合度高,适用于一对一输入输出场景。选择时应根据业务需求决定:关注数据内容用业务语义路由,仅需区分数据来源则用技术源路由。业务语义路由能更好地解
2025-08-28 12:56:36
439
原创 Logstash数据迁移之mysql-to-kafka.conf详细配置
本文介绍了使用Logstash配置从MySQL到Kafka数据传输的详细方案。主要内容包括:核心架构(MySQL→Logstash→Kafka)、基础配置文件详解(JDBC输入、过滤器设置、Kafka输出)、不同场景配置示例(时间戳增量同步、ID增量同步、全量同步)以及运行调试方法。重点强调了性能优化、数据顺序保证、时区统一等最佳实践,并指出对于实时性要求高的场景建议使用Debezium等工具。该方案适用于中等延迟要求的数据同步场景。
2025-08-28 11:43:14
795
原创 Logstash数据迁移之es-to-kafka.conf详细配置
本文详细介绍了如何在Logstash中配置从Elasticsearch读取数据并输出到Kafka的完整流程。主要包括三个核心部分:input(使用Elasticsearch插件定义数据源)、filter(可选的数据处理)和output(配置Kafka输出)。文章提供了详细的参数说明,包括必要的ES连接设置、查询条件、分页控制,以及Kafka的生产者配置、消息格式和可靠性设置。特别强调了使用文档ID作为Kafka消息key、元数据处理和错误重试等高级功能。最后给出了一个完整的配置示例,展示了如何将过去15分钟
2025-08-28 09:18:43
451
原创 springboot如何调用dolphinshceduler
Spring Boot调用DolphinScheduler接口主要有两种方式:直接调用RESTful API(推荐)和使用Java API Client。文章详细介绍了使用RestTemplate调用REST API的方法,包括配置基础信息、编写工具类处理登录和请求,并提供了查询项目列表和启动工作流实例的代码示例。这种方式通过sessionId鉴权,灵活通用,适合大多数集成场景。
2025-08-27 11:06:47
811
原创 Apache DolphinScheduler:数据治理中数据质检利器
Apache DolphinScheduler是一个分布式、可视化的工作流任务调度平台,主要用于解决复杂任务依赖关系下的调度问题。其核心应用场景包括:1)大数据ETL/ELT处理,支持多类型任务和定时调度;2)机器学习流程管理,实现从数据准备到模型部署的全周期编排;3)系统运维自动化,执行定期维护任务;4)业务系统整合,串联跨系统业务流程;5)实时数据处理辅助。该平台特别适合具有任务依赖、多技术栈、需要高可靠性和可视化监控的工作场景,是数据领域和自动化领域的"工作流大脑。
2025-08-27 11:01:11
1014
原创 MyBatis-Flex多表关联查询指南
MyBatis-Flex 提供两种多表关联查询方式:1) 基于 QueryWrapper 的灵活手动关联,通过多次查询实现;2) 基于 @Relation 注解的声明式自动关联,支持一对一、一对多、多对多等关系。两种方式都支持添加关联条件,但实现机制不同。QueryWrapper 方式更灵活,@Relation 方式更简洁,开发者可根据场景选择合适方案。
2025-08-26 18:50:13
534
原创 MyBatis-Flex是如何避免不同数据库语法差异的?
MyBatis-Flex通过内置的方言(Dialect)机制和APT元数据,有效解决了不同数据库的语法差异问题。它支持MySQL、Oracle等主流数据库,自动根据数据源URL识别对应方言并生成标准SQL。开发者只需使用QueryWrapper编写统一代码,框架会自动适配分页、函数处理等场景的语法差异。最佳实践包括正确配置数据源URL、优先使用QueryWrapper、利用Functions工具类处理函数,以及多数据库测试。这种设计显著降低了数据库迁移和多数据库支持的成本,实现"一套代码适配多数据
2025-08-26 17:25:24
571
原创 MyBatis-Flex:一个支持关联查询的MyBatis
摘要: MyBatis-Flex是MyBatis的增强版ORM框架,兼具轻量、强大与高性能特性。相比MyBatis-Plus,它提供更灵活的联表查询、APT代码生成和更好的多数据库兼容性,适合复杂SQL、多租户、读写分离等场景。核心优势包括:编译时生成TableDef提升性能、强大的QueryWrapper支持复杂查询、内置企业级功能(数据脱敏/权限控制),特别推荐用于新建Spring Boot项目、微服务架构及需要适配多数据库的系统。(149字)
2025-08-26 17:09:35
649
原创 Springboot应用如何与SkyWalking集成,并使用Docker进行发布
摘要:本文介绍了Spring Boot应用与SkyWalking监控系统集成并通过Docker部署的完整方案。主要内容包括:1)使用Docker Compose快速搭建SkyWalking后端(OAP服务)和UI界面,包含Elasticsearch存储配置;2)在Spring Boot应用中通过Java Agent方式集成SkyWalking,提供详细的Dockerfile编写指南,重点说明agent参数配置和OAP服务地址设置。方案采用容器化部署,支持开发和生产环境,实现应用性能监控和链路追踪功能。
2025-08-25 16:54:56
1046
原创 SkyWalking高效线程上下文管理机制:确保调用链中traceId来自同一个请求
文章摘要: SkyWalking Agent通过线程上下文管理机制确保在多线程/异步环境下正确获取traceId。核心流程:1)请求到达时拦截器解析Header并绑定traceId到当前线程的ThreadLocal;2)业务代码通过ThreadLocal获取上下文;3)调用下游时自动注入traceId到请求头。针对异步场景,集成TransmittableThreadLocal(TTL)或手动传递上下文,确保子线程能继承父线程的traceId。该机制实现了跨服务、跨线程的traceId一致性,保障全链路追踪的
2025-08-22 15:14:48
912
原创 skywalking-agent与logback-spring.xml中的traceId自动关联的原理
摘要:本文介绍了如何通过SkyWalking Agent自动将调用链traceId与Logback日志关联,实现无代码侵入的调用链监控方案。关键点在于SkyWalking Agent通过字节码增强技术修改Logback的PatternLayout类,使其能识别%tid占位符并动态替换为当前traceId。配置只需两步:1)启动时加载SkyWalking Agent;2)在logback-spring.xml中添加%tid占位符。该方案无需编码即可实现日志与调用链的自动关联,在SkyWalking UI中可查
2025-08-22 11:30:46
1040
原创 基于 SkyWalking + Elasticsearch + Grafana 的可落地调用链监控方案
这个方案成熟稳定、社区活跃、部署相对简单,非常适合中小型团队作为第一代调用链系统落地。
2025-08-22 10:59:44
989
原创 如何使用Prometheus + Grafana + Loki构建一个现代化的云原生监控系统
使用 Prometheus + Grafana + Loki 构建一个现代化的云原生监控系统。这套组合被誉为监控领域的“瑞士军刀”,功能强大且生态极佳。
2025-08-21 17:02:55
951
原创 高并发短信网关平台建设方案概述
摘要:本方案提出构建一个高并发、高可用的短信网关平台,支持日均千万级吞吐量。系统采用分层微服务架构,核心包括API网关、异步消息队列、多通道冗余及动态路由。关键技术选型涵盖Shenyu网关、Kafka、Redis集群等,实现削峰填谷、智能降级和全方位风控。通过分阶段实施,逐步完成从基础搭建到灰度上线的全过程,最终达成99.99%可用性、500ms低延迟等核心目标,同时降低运营成本。(148字)
2025-08-21 14:52:09
987
原创 Mermaid样式控制器config配置详解
本文详细介绍了Mermaid图表工具的配置方法,帮助用户打造符合品牌或个人风格的图表。主要内容包括:1)配置基本语法结构;2)全局通用配置(主题、字体等);3)不同类型图表的专属配置(流程图、序列图、甘特图);4)高级安全配置选项。文章强调themeVariables的强大定制能力,提供大量代码示例和效果图,并总结了配置优先级、平台兼容性等最佳实践。通过灵活运用这些配置,可以完全自定义Mermaid图表的外观和样式。
2025-08-20 16:26:49
859
原创 Apache ShenYu和Nacos之间的通信原理
本文介绍了ShenYu网关与Nacos在微服务架构中的协同工作机制。ShenYu网关通过实时感知后端服务状态变化和动态配置管理,实现高效流量路由。Nacos作为注册中心和配置中心,采用"推送通知+拉取数据"模式:服务提供者通过HTTP/gRPC注册到Nacos,网关通过UDP接收变更通知后HTTP拉取最新数据;配置同步则基于HTTP长轮询实现动态更新。这种架构实现了服务的高可用、实时同步和解耦管理,支持秒级服务发现和配置热更新,无需重启网关即可生效。
2025-08-20 16:26:33
1198
原创 Mermaid:让研发中的绘图变得更简单
Mermaid是一个基于JavaScript的图表绘制工具,通过类似Markdown的纯文本语法生成各类图表,支持流程图、序列图、甘特图等十多种图表类型。其核心优势在于文本化定义图表,便于版本控制和协作,并能自动处理布局排版。用户只需掌握简单的代码语法,即可在VS Code、GitHub等平台中直接使用。Mermaid将图表代码化,显著提升了文档工作的效率和可维护性,是替代传统拖拽式绘图工具的高效解决方案。
2025-08-20 14:10:06
964
原创 shenyu网关规则同步在nacos中的配置
摘要:ShenYu网关通过Nacos实现规则动态同步,核心流程包括Admin推送规则到Nacos配置中心,网关节点监听并实时加载变更。配置需在Admin(写入端)和Bootstrap(读取端)保持严格一致,包括Nacos地址、命名空间ID、DataID等关键参数。生产环境建议配置命名空间隔离、集群地址和高强度认证,确保高可用性。同步过程无需重启网关,通过验证Nacos配置更新和网关日志即可确认同步成功。该机制支持网关集群的动态扩缩容,实现高效可靠的规则分发。
2025-08-20 11:12:02
875
原创 微服务自动注册到ShenYu网关配置详解
ShenYu客户端配置详解:该配置实现微服务自动注册到ShenYu网关,无需手动配置路由规则。核心配置包括注册类型(HTTP)、Admin地址、认证信息及关键参数contextPath(决定路由前缀)和appName。通过Nacos集中管理,实现服务自动发现和动态路由: 微服务启动后自动向Admin注册 网关自动创建对应选择器和规则 支持全量/上下文两种注册模式 内置安全认证机制 优势:开发无感知、运维自动化、服务动态伸缩,是云原生微服务治理的关键实践。
2025-08-20 11:01:30
981
原创 Apache ShenYu网关与Nacos的关联及如何配合使用
摘要:Apache ShenYu网关与Nacos构成“协作互补”关系,Nacos作为服务注册与配置中心,为ShenYu提供动态服务发现和配置管理能力。ShenYu通过Nacos实现路由动态更新、健康检查及熔断,扩展出流量路由、负载均衡等网关功能。典型场景中,业务服务注册到Nacos后,ShenYu实时同步路由规则并代理流量,支持热更新配置。该组合弥补了纯Nacos方案在流量治理上的不足,形成“服务治理+流量治理”的完整解决方案,需注意版本兼容性与高可用部署。二者的协同显著提升了微服务架构的动态调度能力。
2025-08-19 17:09:32
601
原创 shenyu网关与与nacos业务网关的定位
Apache ShenYu网关与Nacos业务网关的核心区别在于定位与功能。ShenYu作为全流量代理网关,支持多协议路由、流量治理等丰富功能;Nacos则专注于服务注册发现和配置管理,不直接处理流量转发。两者常配合使用:Nacos管理服务注册,ShenYu代理外部请求。选择时,若需开箱即用网关选ShenYu,仅需服务发现则用Nacos。典型架构中,ShenYu集成Nacos实现动态服务发现与路由,形成完整微服务解决方案。
2025-08-19 16:58:45
775
原创 如何建设数据可信空间的“三件套“(区域节点、流通利用平台、连接器)
摘要:数据可信空间建设方案提出三件套体系,包括区域节点、流通平台和可信连接器。区域节点负责数据汇聚治理,需配置国产化硬件和隐私计算沙箱;流通平台集成智能合约和隐私计算引擎,实现数据价值交换;可信连接器采用国密算法和TEE环境确保传输安全。方案建议分三阶段实施,单个区域节点建设成本约300-500万元,需配套DSMM三级认证等管理制度。该体系可支持政务数据开放等场景,实现安全合规的数据流通利用。
2025-08-18 14:16:30
393
原创 什么是可信空间的全域节点、区域节点、业务节点?
摘要: 数据可信空间通过全域节点、区域节点、业务节点三级架构实现分层治理。全域节点(如国家级平台)负责全局认证与策略制定,区域节点(如省级数据中心)执行本地化治理,业务节点(如IoT设备)处理原子化任务。信任链通过数字证书逐级传递,业务数据经区域节点签名后形成可验证链路。数据流支持双向交互,策略自上而下下发,数据自下而上上报并附加审计日志。动态扩展时,区域节点通过全域协调实现跨域安全协作(如医疗数据共享)。该架构兼具集中控制与灵活扩展性,确保端到端可信。
2025-08-15 14:44:49
466
原创 区块链在可信空间智能合约中的应用
**摘要:**区块链智能合约在可信数据空间的应用,通过去中心化信任与自动化执行,重塑数据存储、共享与治理。核心方向包括数据确权管理(如Ocean Protocol)、真实性验证(如VeChain)、隐私计算(如MPC技术)及跨机构协作(如跨境贸易)。关键技术涵盖预言机输入、Layer2扩容及隐私合规方案。典型案例覆盖供应链、金融、医疗等领域。尽管面临性能与法律衔接等挑战,未来趋势指向模块化区块链、AI融合及量子安全发展,最终实现数据主权保护与协作成本降低,推动数据要素市场升级。(150字)
2025-08-14 10:25:04
909
原创 如何写出高质量的dify参数提取器prompt
摘要: 本文介绍了专业级的Dify参数提取器prompt设计方法,包含核心原则、模板示例和优化技巧。提出角色定义、输入输出规范、处理逻辑显式化三大原则,并给出金融合同和临床报告等领域的特化模板。高级技巧包括动态条件注入、多模态支持和置信度管理。通过结构化prompt设计,可实现参数提取准确率提升40%以上,输出100%符合目标schema。建议建立prompt版本管理系统持续优化。
2025-08-13 17:42:37
460
原创 可信数据空间:可信空间、区域功能节点、业务功能节点、连接器的关联关系
可信数据空间通过分层架构实现安全数据共享:可信空间作为顶层制定全局规则;区域功能节点协调辖区内功能节点协作;功能节点提供具体数据服务;连接器作为唯一通信通道确保安全交互。系统采用"规则自上而下约束,数据自下而上流动"机制,通过分层治理和标准化连接,在保证数据主权的同时实现跨域协作,具有策略分级执行、去中心化治理等特性,支持灵活扩展业务场景。
2025-08-13 17:00:35
756
原创 可信数据空间:可信空间、区域功能节点、业务功能节点、连接器的定义与角色
摘要: 可信数据空间通过分布式信任机制实现跨组织数据安全流通,包含四大核心组件: 可信空间:制定全局策略与合规框架; 区域功能节点:协调地理/行业自治,执行本地化规则; 业务功能节点:提供垂直领域数据服务与API; 连接器:标准化中间件,确保安全通信与策略执行。 控制流自上而下传导策略,数据流通过连接器交互,形成闭环治理,平衡统一性与灵活性。架构支撑数据要素市场化高效配置。
2025-08-11 15:10:06
542
原创 dify中直接回复节点与结束节点的异同与在工作流、Chatflow、聊天助手、Agent、文本生成中的使用选择
摘要: Dify中的直接回复节点和结束节点适用于不同交互场景。直接回复节点支持多轮对话(如信息收集、确认),保持流程继续;结束节点用于终止对话并返回结果(如任务完成、错误提示)。工作流需结合两者实现状态反馈与最终输出,Chatflow以直接回复节点为主实现多轮引导,而聊天助手和文本生成更依赖结束节点快速响应。Agent需动态平衡二者,通过中间决策反馈提升自主性。关键策略包括:需用户输入时用直接回复节点,任务完成时用结束节点,并可通过变量传递和动态跳转优化体验。
2025-08-11 09:30:31
778
原创 dify变量聚合器的一些使用心得
变量聚合器节点用于整合多分支输出结果,通过将不同分支的相同参数赋值给统一变量,确保下游节点能统一处理上游输出。它并非堆积多路数据,而是选择一路结果赋给指定变量,适用于问题分类、条件分支等多分支场景。通过案例演示可见,该节点能有效避免下游重复定义,实现分支结果的统一调用和处理。
2025-08-08 17:03:38
292
原创 可信数据空间(Trusted Data Space)的技术架构概述
可信数据空间技术架构通过多层次体系实现数据安全流通,核心包括:基础设施层(分布式存储、TEE、区块链)、数据控制层(DID、ABAC)、数据处理层(PETs、数据沙箱)、服务层(数据目录、智能合约)和治理层(审计、合规)。关键技术涉及MPC、联邦学习、同态加密等,支持医疗、金融等场景的隐私保护协作。面临性能与互操作性挑战,未来将向云原生、AI驱动方向发展,本质是通过技术手段在数据流通中嵌入信任机制。
2025-08-08 16:00:06
1039
原创 dify自定义工具:如何将系统独立功能发布为dify自定义工具
本文介绍了如何将Swagger接口转换为OpenAPI并集成到Dify平台的完整流程。首先阐述了工具作为可复用功能单元的重要性,包括执行动态操作、访问实时信息和处理私有数据等能力。随后详细说明了转换步骤:通过Swagger Converter工具将接口规范转换为OpenAPI格式,然后在Dify平台创建自定义工具并配置到智能体中。最后展示了测试效果,并强调MCP系统中两个关键工具(获取工具列表和调用工具)的协同作用,分别解决身份认证和业务操作问题,体现了企业级系统的安全分层和流程标准化设计理念。
2025-08-05 08:40:33
519
原创 dify中Agent 应用和工作流应用中的 Agent 节点的区别
Dify中的Agent应用与工作流Agent节点存在显著差异。Agent应用是端到端的独立AI应用,能自主决策并动态调用工具完成复杂任务(如客服机器人),适合开放式场景。而工作流中的Agent节点作为流程组件,需与其他节点协同工作,行为受流程约束,适合结构化任务(如航班推荐环节)。核心区别在于:Agent应用具有高度自主性,工作流节点则强调流程可控性。选择时,全自动任务用Agent应用,需流程集成的选工作流节点。
2025-08-04 16:40:44
342
原创 AI学习研究免费token不够用?Ollama帮你本地搭建自己的大模型
Ollama 本地大语言模型部署指南 摘要: Ollama 是一个开源工具,可简化大型语言模型(如 LLaMA、DeepSeek 等)在本地计算机上的运行和管理。本文提供详细的 Docker 部署方案,支持 CPU/GPU 加速运行,包含 DeepSeek 系列模型的下载与调用方法。主要内容包括:1) Docker 环境配置;2) Ollama 容器部署(含 GPU 支持);3) DeepSeek 模型下载与交互方式(命令行/API/Python);4) 性能优化技巧及常见问题解决。适用于开发者快速搭建本地
2025-08-01 15:18:50
511
原创 Spring AI中异步工具(CompletableFuture)的使用场景
摘要:本文介绍了在Spring AI中使用CompletableFuture实现异步调用的五种典型场景,包括长时间运行操作(如报表生成)、外部系统集成、I/O密集型任务、实时数据处理和后台执行任务。针对每种场景提供了具体代码示例,并给出最佳实践建议,包括线程池配置、超时处理、进度反馈和错误处理机制。通过CompletableFuture可以有效提升系统响应性,使AI工具能够高效处理耗时任务,同时保持服务的可用性。
2025-07-31 10:30:00
288
原创 本地使用postman调试mcp接口
本文介绍了使用Postman测试本地MCP服务SSE接口的方法。当直接访问http://localhost:9090/sse时会收到SSE重定向消息,无法直接调试。文章详细说明了操作步骤:1)在Postman中选择请求方式;2)启动本地MCP服务后输入接口地址;3)使用JSON或基础类型参数作为入参。该方法适用于Postman 11.53.2及以上版本,能有效解决SSE接口调试问题。
2025-07-29 19:13:30
721
2
vector-database (向量数据库)
2025-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人