友莘居士-CSDN博客

原创数据治理：数据质检规则分类

数据质检规则设计是确保数据质量的核心环节，主要包括六大维度：1）完整性规则（检查必填字段非空和存在性）；2）有效性规则（验证格式、值域、代码值和逻辑一致性）；3）准确性规则（通过交叉验证和业务规则确保数据准确）；4）一致性规则（检查跨字段、跨表和跨系统的一致性）；5）唯一性规则（验证主键和业务键的唯一性）；6）时效性规则（监控数据新鲜度和延迟）。建议采用规则元数据管理、分级处理、可视化报告和自动化流程来系统化实施质检，确保数据的可靠性和可用性。

2025-08-29 11:49:11 358

原创数据质检之springboot通过yarn调用spark作业实现数据质量检测

摘要：本文介绍了在Spring Boot应用中通过YARN调用Spark作业进行数据质检的架构方案。核心采用解耦设计，将Web服务与大数据处理分离，由Spring Boot作为客户端提交作业到YARN集群。重点解析了Spark on YARN的两种模式（yarn-cluster和yarn-client）及适用场景，并详细对比了两种实现方式：通过ProcessBuilder调用spark-submit脚本和使用SparkLauncher API。文章提供了完整的代码示例，强调生产环境推荐采用yarn-clus

2025-08-29 11:08:42 604

原创 Logstash数据迁移之syslog-to-kafka.conf详细配置

这个配置为你提供了一个强大、灵活且可扩展的中央日志收集管道，几乎可以处理任何产生Syslog的设备或应用程序的日志。：将网络设备、服务器等配置为将Syslog发送到运行Logstash的机器的指定端口。一个非常实用的场景是将不同来源或类型的日志发送到不同的 Kafka Topic。假设有一条 Syslog 消息，其 PRI 部分为。这就为后续的搜索、筛选和可视化打下了坚实的基础。在标准的 Syslog 消息中，消息开头有一个。字段（即PRI值），然后将其拆解，生成直观的。二、核心解析引擎与过滤器分析。

2025-08-29 10:00:00 622

原创 Logstash数据迁移之kafka-to-es.conf详细配置

本文介绍了使用Logstash将Kafka数据传输到Elasticsearch的完整方案。主要内容包括：核心架构（Kafka→Logstash→ES）、详细配置文件示例（输入/过滤/输出三部分）、关键配置解析（消费者组、偏移量管理、JSON解析等）以及最佳实践建议（幂等写入、错误处理、索引管理等）。文中特别强调了日期处理、字段清理、文档ID设置等重要环节，并提供了调试和错误处理方案，如死信队列配置。该方案支持SSL认证、批量提交优化等高级功能，适用于生产环境的大规模日志处理场景。

2025-08-29 09:30:00 1011

原创 Logstash数据迁移之mysql-to-kafka.conf两种路由决策对比

本文对比了两种数据路由模式的差异：基于业务语义的if [type] == "tbl_api"和基于技术源的if [@metadata][input][id] == "jdbc_input_orders"。前者通过业务类型字段进行分类，具有高灵活性和可读性，适合同一输入源产生多种业务数据的场景；后者直接绑定输入源ID，配置简单但耦合度高，适用于一对一输入输出场景。选择时应根据业务需求决定：关注数据内容用业务语义路由，仅需区分数据来源则用技术源路由。业务语义路由能更好地解

2025-08-28 12:56:36 439

原创 Logstash数据迁移之mysql-to-kafka.conf详细配置

本文介绍了使用Logstash配置从MySQL到Kafka数据传输的详细方案。主要内容包括：核心架构（MySQL→Logstash→Kafka）、基础配置文件详解（JDBC输入、过滤器设置、Kafka输出）、不同场景配置示例（时间戳增量同步、ID增量同步、全量同步）以及运行调试方法。重点强调了性能优化、数据顺序保证、时区统一等最佳实践，并指出对于实时性要求高的场景建议使用Debezium等工具。该方案适用于中等延迟要求的数据同步场景。

2025-08-28 11:43:14 795

原创 Logstash数据迁移之es-to-kafka.conf详细配置

本文详细介绍了如何在Logstash中配置从Elasticsearch读取数据并输出到Kafka的完整流程。主要包括三个核心部分：input（使用Elasticsearch插件定义数据源）、filter（可选的数据处理）和output（配置Kafka输出）。文章提供了详细的参数说明，包括必要的ES连接设置、查询条件、分页控制，以及Kafka的生产者配置、消息格式和可靠性设置。特别强调了使用文档ID作为Kafka消息key、元数据处理和错误重试等高级功能。最后给出了一个完整的配置示例，展示了如何将过去15分钟

2025-08-28 09:18:43 451

原创 springboot如何调用dolphinshceduler

Spring Boot调用DolphinScheduler接口主要有两种方式：直接调用RESTful API（推荐）和使用Java API Client。文章详细介绍了使用RestTemplate调用REST API的方法，包括配置基础信息、编写工具类处理登录和请求，并提供了查询项目列表和启动工作流实例的代码示例。这种方式通过sessionId鉴权，灵活通用，适合大多数集成场景。

2025-08-27 11:06:47 811

原创 Apache DolphinScheduler：数据治理中数据质检利器

Apache DolphinScheduler是一个分布式、可视化的工作流任务调度平台，主要用于解决复杂任务依赖关系下的调度问题。其核心应用场景包括：1）大数据ETL/ELT处理，支持多类型任务和定时调度；2）机器学习流程管理，实现从数据准备到模型部署的全周期编排；3）系统运维自动化，执行定期维护任务；4）业务系统整合，串联跨系统业务流程；5）实时数据处理辅助。该平台特别适合具有任务依赖、多技术栈、需要高可靠性和可视化监控的工作场景，是数据领域和自动化领域的"工作流大脑。

2025-08-27 11:01:11 1014

原创 MyBatis-Flex多表关联查询指南

MyBatis-Flex 提供两种多表关联查询方式：1) 基于 QueryWrapper 的灵活手动关联，通过多次查询实现；2) 基于 @Relation 注解的声明式自动关联，支持一对一、一对多、多对多等关系。两种方式都支持添加关联条件，但实现机制不同。QueryWrapper 方式更灵活，@Relation 方式更简洁，开发者可根据场景选择合适方案。

2025-08-26 18:50:13 534

原创 MyBatis-Flex是如何避免不同数据库语法差异的？

MyBatis-Flex通过内置的方言(Dialect)机制和APT元数据，有效解决了不同数据库的语法差异问题。它支持MySQL、Oracle等主流数据库，自动根据数据源URL识别对应方言并生成标准SQL。开发者只需使用QueryWrapper编写统一代码，框架会自动适配分页、函数处理等场景的语法差异。最佳实践包括正确配置数据源URL、优先使用QueryWrapper、利用Functions工具类处理函数，以及多数据库测试。这种设计显著降低了数据库迁移和多数据库支持的成本，实现"一套代码适配多数据

2025-08-26 17:25:24 571

原创 MyBatis-Flex：一个支持关联查询的MyBatis

摘要： MyBatis-Flex是MyBatis的增强版ORM框架，兼具轻量、强大与高性能特性。相比MyBatis-Plus，它提供更灵活的联表查询、APT代码生成和更好的多数据库兼容性，适合复杂SQL、多租户、读写分离等场景。核心优势包括：编译时生成TableDef提升性能、强大的QueryWrapper支持复杂查询、内置企业级功能（数据脱敏/权限控制），特别推荐用于新建Spring Boot项目、微服务架构及需要适配多数据库的系统。（149字）

2025-08-26 17:09:35 649

原创 Springboot应用如何与SkyWalking集成，并使用Docker进行发布

摘要：本文介绍了Spring Boot应用与SkyWalking监控系统集成并通过Docker部署的完整方案。主要内容包括：1）使用Docker Compose快速搭建SkyWalking后端(OAP服务)和UI界面，包含Elasticsearch存储配置；2）在Spring Boot应用中通过Java Agent方式集成SkyWalking，提供详细的Dockerfile编写指南，重点说明agent参数配置和OAP服务地址设置。方案采用容器化部署，支持开发和生产环境，实现应用性能监控和链路追踪功能。

2025-08-25 16:54:56 1046

原创 SkyWalking高效线程上下文管理机制：确保调用链中traceId来自同一个请求

文章摘要： SkyWalking Agent通过线程上下文管理机制确保在多线程/异步环境下正确获取traceId。核心流程：1）请求到达时拦截器解析Header并绑定traceId到当前线程的ThreadLocal；2）业务代码通过ThreadLocal获取上下文；3）调用下游时自动注入traceId到请求头。针对异步场景，集成TransmittableThreadLocal（TTL）或手动传递上下文，确保子线程能继承父线程的traceId。该机制实现了跨服务、跨线程的traceId一致性，保障全链路追踪的

2025-08-22 15:14:48 912

原创 skywalking-agent与logback-spring.xml中的traceId自动关联的原理

摘要：本文介绍了如何通过SkyWalking Agent自动将调用链traceId与Logback日志关联，实现无代码侵入的调用链监控方案。关键点在于SkyWalking Agent通过字节码增强技术修改Logback的PatternLayout类，使其能识别%tid占位符并动态替换为当前traceId。配置只需两步：1)启动时加载SkyWalking Agent；2)在logback-spring.xml中添加%tid占位符。该方案无需编码即可实现日志与调用链的自动关联，在SkyWalking UI中可查

2025-08-22 11:30:46 1040

原创基于 SkyWalking + Elasticsearch + Grafana 的可落地调用链监控方案

这个方案成熟稳定、社区活跃、部署相对简单，非常适合中小型团队作为第一代调用链系统落地。

2025-08-22 10:59:44 989

原创如何使用Prometheus + Grafana + Loki构建一个现代化的云原生监控系统

使用 Prometheus + Grafana + Loki 构建一个现代化的云原生监控系统。这套组合被誉为监控领域的“瑞士军刀”，功能强大且生态极佳。

2025-08-21 17:02:55 951

原创高并发短信网关平台建设方案概述

摘要：本方案提出构建一个高并发、高可用的短信网关平台，支持日均千万级吞吐量。系统采用分层微服务架构，核心包括API网关、异步消息队列、多通道冗余及动态路由。关键技术选型涵盖Shenyu网关、Kafka、Redis集群等，实现削峰填谷、智能降级和全方位风控。通过分阶段实施，逐步完成从基础搭建到灰度上线的全过程，最终达成99.99%可用性、500ms低延迟等核心目标，同时降低运营成本。（148字）

2025-08-21 14:52:09 987

原创 Mermaid样式控制器config配置详解

本文详细介绍了Mermaid图表工具的配置方法，帮助用户打造符合品牌或个人风格的图表。主要内容包括：1）配置基本语法结构；2）全局通用配置（主题、字体等）；3）不同类型图表的专属配置（流程图、序列图、甘特图）；4）高级安全配置选项。文章强调themeVariables的强大定制能力，提供大量代码示例和效果图，并总结了配置优先级、平台兼容性等最佳实践。通过灵活运用这些配置，可以完全自定义Mermaid图表的外观和样式。

2025-08-20 16:26:49 859

原创 Apache ShenYu和Nacos之间的通信原理

本文介绍了ShenYu网关与Nacos在微服务架构中的协同工作机制。ShenYu网关通过实时感知后端服务状态变化和动态配置管理，实现高效流量路由。Nacos作为注册中心和配置中心，采用"推送通知+拉取数据"模式：服务提供者通过HTTP/gRPC注册到Nacos，网关通过UDP接收变更通知后HTTP拉取最新数据；配置同步则基于HTTP长轮询实现动态更新。这种架构实现了服务的高可用、实时同步和解耦管理，支持秒级服务发现和配置热更新，无需重启网关即可生效。

2025-08-20 16:26:33 1198

原创 Mermaid：让研发中的绘图变得更简单

Mermaid是一个基于JavaScript的图表绘制工具，通过类似Markdown的纯文本语法生成各类图表，支持流程图、序列图、甘特图等十多种图表类型。其核心优势在于文本化定义图表，便于版本控制和协作，并能自动处理布局排版。用户只需掌握简单的代码语法，即可在VS Code、GitHub等平台中直接使用。Mermaid将图表代码化，显著提升了文档工作的效率和可维护性，是替代传统拖拽式绘图工具的高效解决方案。

2025-08-20 14:10:06 964

原创 shenyu网关规则同步在nacos中的配置

摘要：ShenYu网关通过Nacos实现规则动态同步，核心流程包括Admin推送规则到Nacos配置中心，网关节点监听并实时加载变更。配置需在Admin（写入端）和Bootstrap（读取端）保持严格一致，包括Nacos地址、命名空间ID、DataID等关键参数。生产环境建议配置命名空间隔离、集群地址和高强度认证，确保高可用性。同步过程无需重启网关，通过验证Nacos配置更新和网关日志即可确认同步成功。该机制支持网关集群的动态扩缩容，实现高效可靠的规则分发。

2025-08-20 11:12:02 875

原创微服务自动注册到ShenYu网关配置详解

ShenYu客户端配置详解：该配置实现微服务自动注册到ShenYu网关，无需手动配置路由规则。核心配置包括注册类型（HTTP）、Admin地址、认证信息及关键参数contextPath（决定路由前缀）和appName。通过Nacos集中管理，实现服务自动发现和动态路由：微服务启动后自动向Admin注册网关自动创建对应选择器和规则支持全量/上下文两种注册模式内置安全认证机制优势：开发无感知、运维自动化、服务动态伸缩，是云原生微服务治理的关键实践。

2025-08-20 11:01:30 981

原创 Apache ShenYu网关与Nacos的关联及如何配合使用

摘要：Apache ShenYu网关与Nacos构成“协作互补”关系，Nacos作为服务注册与配置中心，为ShenYu提供动态服务发现和配置管理能力。ShenYu通过Nacos实现路由动态更新、健康检查及熔断，扩展出流量路由、负载均衡等网关功能。典型场景中，业务服务注册到Nacos后，ShenYu实时同步路由规则并代理流量，支持热更新配置。该组合弥补了纯Nacos方案在流量治理上的不足，形成“服务治理+流量治理”的完整解决方案，需注意版本兼容性与高可用部署。二者的协同显著提升了微服务架构的动态调度能力。

2025-08-19 17:09:32 601

原创 shenyu网关与与nacos业务网关的定位

Apache ShenYu网关与Nacos业务网关的核心区别在于定位与功能。ShenYu作为全流量代理网关，支持多协议路由、流量治理等丰富功能；Nacos则专注于服务注册发现和配置管理，不直接处理流量转发。两者常配合使用：Nacos管理服务注册，ShenYu代理外部请求。选择时，若需开箱即用网关选ShenYu，仅需服务发现则用Nacos。典型架构中，ShenYu集成Nacos实现动态服务发现与路由，形成完整微服务解决方案。

2025-08-19 16:58:45 775

原创如何建设数据可信空间的“三件套“（区域节点、流通利用平台、连接器）

摘要：数据可信空间建设方案提出三件套体系，包括区域节点、流通平台和可信连接器。区域节点负责数据汇聚治理，需配置国产化硬件和隐私计算沙箱；流通平台集成智能合约和隐私计算引擎，实现数据价值交换；可信连接器采用国密算法和TEE环境确保传输安全。方案建议分三阶段实施，单个区域节点建设成本约300-500万元，需配套DSMM三级认证等管理制度。该体系可支持政务数据开放等场景，实现安全合规的数据流通利用。

2025-08-18 14:16:30 393

原创什么是可信空间的全域节点、区域节点、业务节点？

摘要：数据可信空间通过全域节点、区域节点、业务节点三级架构实现分层治理。全域节点（如国家级平台）负责全局认证与策略制定，区域节点（如省级数据中心）执行本地化治理，业务节点（如IoT设备）处理原子化任务。信任链通过数字证书逐级传递，业务数据经区域节点签名后形成可验证链路。数据流支持双向交互，策略自上而下下发，数据自下而上上报并附加审计日志。动态扩展时，区域节点通过全域协调实现跨域安全协作（如医疗数据共享）。该架构兼具集中控制与灵活扩展性，确保端到端可信。

2025-08-15 14:44:49 466

原创区块链在可信空间智能合约中的应用

**摘要：**区块链智能合约在可信数据空间的应用，通过去中心化信任与自动化执行，重塑数据存储、共享与治理。核心方向包括数据确权管理（如Ocean Protocol）、真实性验证（如VeChain）、隐私计算（如MPC技术）及跨机构协作（如跨境贸易）。关键技术涵盖预言机输入、Layer2扩容及隐私合规方案。典型案例覆盖供应链、金融、医疗等领域。尽管面临性能与法律衔接等挑战，未来趋势指向模块化区块链、AI融合及量子安全发展，最终实现数据主权保护与协作成本降低，推动数据要素市场升级。（150字）

2025-08-14 10:25:04 909

原创如何写出高质量的dify参数提取器prompt

摘要：本文介绍了专业级的Dify参数提取器prompt设计方法，包含核心原则、模板示例和优化技巧。提出角色定义、输入输出规范、处理逻辑显式化三大原则，并给出金融合同和临床报告等领域的特化模板。高级技巧包括动态条件注入、多模态支持和置信度管理。通过结构化prompt设计，可实现参数提取准确率提升40%以上，输出100%符合目标schema。建议建立prompt版本管理系统持续优化。

2025-08-13 17:42:37 460

原创可信数据空间：可信空间、区域功能节点、业务功能节点、连接器的关联关系

可信数据空间通过分层架构实现安全数据共享：可信空间作为顶层制定全局规则；区域功能节点协调辖区内功能节点协作；功能节点提供具体数据服务；连接器作为唯一通信通道确保安全交互。系统采用"规则自上而下约束，数据自下而上流动"机制，通过分层治理和标准化连接，在保证数据主权的同时实现跨域协作，具有策略分级执行、去中心化治理等特性，支持灵活扩展业务场景。

2025-08-13 17:00:35 756

原创可信数据空间：可信空间、区域功能节点、业务功能节点、连接器的定义与角色

摘要：可信数据空间通过分布式信任机制实现跨组织数据安全流通，包含四大核心组件：可信空间：制定全局策略与合规框架；区域功能节点：协调地理/行业自治，执行本地化规则；业务功能节点：提供垂直领域数据服务与API；连接器：标准化中间件，确保安全通信与策略执行。控制流自上而下传导策略，数据流通过连接器交互，形成闭环治理，平衡统一性与灵活性。架构支撑数据要素市场化高效配置。

2025-08-11 15:10:06 542

原创 dify中直接回复节点与结束节点的异同与在工作流、Chatflow、聊天助手、Agent、文本生成中的使用选择

摘要： Dify中的直接回复节点和结束节点适用于不同交互场景。直接回复节点支持多轮对话（如信息收集、确认），保持流程继续；结束节点用于终止对话并返回结果（如任务完成、错误提示）。工作流需结合两者实现状态反馈与最终输出，Chatflow以直接回复节点为主实现多轮引导，而聊天助手和文本生成更依赖结束节点快速响应。Agent需动态平衡二者，通过中间决策反馈提升自主性。关键策略包括：需用户输入时用直接回复节点，任务完成时用结束节点，并可通过变量传递和动态跳转优化体验。

2025-08-11 09:30:31 778

原创 dify变量聚合器的一些使用心得

变量聚合器节点用于整合多分支输出结果，通过将不同分支的相同参数赋值给统一变量，确保下游节点能统一处理上游输出。它并非堆积多路数据，而是选择一路结果赋给指定变量，适用于问题分类、条件分支等多分支场景。通过案例演示可见，该节点能有效避免下游重复定义，实现分支结果的统一调用和处理。

2025-08-08 17:03:38 292

原创可信数据空间（Trusted Data Space）的技术架构概述

可信数据空间技术架构通过多层次体系实现数据安全流通，核心包括：基础设施层（分布式存储、TEE、区块链）、数据控制层（DID、ABAC）、数据处理层（PETs、数据沙箱）、服务层（数据目录、智能合约）和治理层（审计、合规）。关键技术涉及MPC、联邦学习、同态加密等，支持医疗、金融等场景的隐私保护协作。面临性能与互操作性挑战，未来将向云原生、AI驱动方向发展，本质是通过技术手段在数据流通中嵌入信任机制。

2025-08-08 16:00:06 1039

原创 dify自定义工具：如何将系统独立功能发布为dify自定义工具

本文介绍了如何将Swagger接口转换为OpenAPI并集成到Dify平台的完整流程。首先阐述了工具作为可复用功能单元的重要性，包括执行动态操作、访问实时信息和处理私有数据等能力。随后详细说明了转换步骤：通过Swagger Converter工具将接口规范转换为OpenAPI格式，然后在Dify平台创建自定义工具并配置到智能体中。最后展示了测试效果，并强调MCP系统中两个关键工具（获取工具列表和调用工具）的协同作用，分别解决身份认证和业务操作问题，体现了企业级系统的安全分层和流程标准化设计理念。

2025-08-05 08:40:33 519

原创 dify中Agent 应用和工作流应用中的 Agent 节点的区别

Dify中的Agent应用与工作流Agent节点存在显著差异。Agent应用是端到端的独立AI应用，能自主决策并动态调用工具完成复杂任务（如客服机器人），适合开放式场景。而工作流中的Agent节点作为流程组件，需与其他节点协同工作，行为受流程约束，适合结构化任务（如航班推荐环节）。核心区别在于：Agent应用具有高度自主性，工作流节点则强调流程可控性。选择时，全自动任务用Agent应用，需流程集成的选工作流节点。

2025-08-04 16:40:44 342

原创 AI学习研究免费token不够用？Ollama帮你本地搭建自己的大模型

Ollama 本地大语言模型部署指南摘要： Ollama 是一个开源工具，可简化大型语言模型（如 LLaMA、DeepSeek 等）在本地计算机上的运行和管理。本文提供详细的 Docker 部署方案，支持 CPU/GPU 加速运行，包含 DeepSeek 系列模型的下载与调用方法。主要内容包括：1) Docker 环境配置；2) Ollama 容器部署（含 GPU 支持）；3) DeepSeek 模型下载与交互方式（命令行/API/Python）；4) 性能优化技巧及常见问题解决。适用于开发者快速搭建本地

2025-08-01 15:18:50 511

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

待转换openapi的swagger接口

swagger接口转换成openapi返回

dify经过编辑后的启动文件

dify中的web代理

vector-database (向量数据库)

redis (缓存/消息队列)

postgres (主数据库)

nginx (反向代理)

dify-web (前端界面)

dify-api (核心API服务)

dify-sandbox (安全沙箱)

清华大学关于deepseek的使用介绍

logstash7.15.2docker镜像

elasticsearch:7.15.2 docker镜像

arm64v8架构docker镜像

arm64架构（minio、人大金仓、arangodb）docker镜像

arm64架构下arangodb3.10.11docker镜像

docker-compose

zookeep+kafka arm64v8架构docker包

空空如也