光于前裕于后-CSDN博客

原创 AWS Redshift 集成Zero-ETL和数据共享 Data sharing

摘要：AWS通过Zero-ETL与Redshift Data Sharing实现实时数据分析，Zero-ETL自动同步OLTP数据到Redshift，Data Sharing实现跨集群只读访问。核心优势包括：1）端到端实时分析无需ETL代码；2）生产与分析隔离；3）单份数据多消费；4）精细权限管控；5）成本优化。使用需注意Zero-ETL新增表需重新赋权，同步失败可手动刷新。结合小集群同步+大集群共享可显著降低成本。（149字）

2026-05-25 11:49:31 414

原创 OpenMetadata设置数据质量规则，并通过钉钉告警

本文介绍如何通过Python脚本将OpenMetadata的数据质量告警转发至钉钉群。首先在OpenMetadata中配置Webhook通知规则，指向自定义的Flask服务端点。该服务接收JSON格式告警后，从中提取关键信息（表名、规则状态、检测结果等），转换为钉钉支持的Markdown消息格式，并通过HMAC-SHA256签名验证后发送到钉钉机器人接口。文中提供了完整的Python实现代码，包含消息格式转换、签名计算和错误处理逻辑，并说明当消息不通时可通过Docker日志排查积压的pending通知。

2026-04-24 17:56:19 237

原创配置钉钉龙虾OpenClaw机器人调用OpenMetadata

本文介绍了如何配置钉钉机器人连接OpenClaw AI平台，并调用OpenMetadata的MCP接口实现自动化数据管理。

2026-03-20 17:42:25 1198 1

原创在AWS Redshift 中使用数据共享 Data sharing

摘要：本文介绍了Amazon Redshift数据共享功能的实现方法，包括分享者集群和使用者集群的操作步骤。通过创建Datashare实现跨集群、账户和区域的数据实时共享，无需数据移动或复制。分享者集群需创建Datashare并授权，使用者集群通过创建数据库获取共享数据访问权限。该功能支持数据实时接入与批处理分离，在Serverless版本中可降低成本。操作步骤涵盖数据库连接、Datashare创建、权限配置及数据查询等关键环节。

2026-01-12 11:42:09 642

原创在AWS Redshift 中使用联邦查询 MySQL

本文详细介绍了在Amazon Redshift Serverless中配置对Amazon RDS for MySQL的联邦查询的全过程。主要内容包括：创建Secrets Manager密钥存储MySQL连接信息、配置IAM角色并绑定Redshift Serverless、启用增强型VPC路由确保跨VPC访问，以及最终通过SQL语句创建外部Schema实现跨数据库查询。

2025-12-25 13:31:44 1113

原创使用AWS Zero-ETL 实时同步MySQL库表到Redshift

AWS Zero-ETL 是一种集成服务，旨在消除或最大限度地减少构建和维护传统 ETL (提取、转换、加载) 数据管道的需求。它通过预置和管理管道，将数据从源系统（如 Amazon Aurora）几乎实时地同步到目标分析服务（如 Amazon Redshift），无需手动执行复杂的数据集成操作。这使得企业能够快速、高效地利用数据进行分析、人工智能 (AI) 和机器学习 (ML)。✅主要优势无需构建和维护管道：客户无需花费时间和精力来构建、维护和扩展复杂的 ETL 数据管道。

2025-11-17 18:25:07 937 3

原创【进阶版】基于Ollama和RAG，本地部署“懂业务”的大模型

本文介绍了如何基于本地部署的AnythingLLM开发问答助手。通过FastAPI框架搭建后端服务，对接AnythingLLM的API实现问答功能。

2025-11-04 19:37:25 437

原创【零代码】基于Ollama和RAG，本地部署“懂业务”的大模型

本文介绍如何零代码通过Ollama和AnythingLLM工具在本地部署懂业务的大模型。Ollama支持主流开源大模型的轻量化本地运行，而AnythingLLM结合RAG技术，可将企业文档导入模型知识库，使通用大模型升级为业务专家。

2025-11-03 20:07:16 1450

原创使用Flink SQL实时入湖Hudi/Hive

Hudi是一个流式数据湖平台，使用Hudi可以直接打通数据库与数据仓库，Hudi可以连通大数据平台，支持对数据的增删改查。Hudi支持同步数据入库，提供了事务保证、索引优化，是打造实时数仓、实时湖仓一体的新一代技术。下面以我实际工作中遇到的问题，聊下湖仓一体的好处，如有不对，敬请指正。

2024-05-07 14:04:04 2432 2

原创使用Sqoop将Hive数据导出到TiDB

关系型数据库与大数据平台之间的数据传输之前写过一些。我发现一些大家可能会忽略但很重要的地方！所以，请继续看下去，你肯定会有收获的！！！

2024-01-11 16:29:51 1916

转载常用贷款词汇英文名称

贷款专用英语词汇

2022-10-24 17:43:40 3153

原创使用StreamSets提供接口实现零代码微服务

通常情况下，我们需要开发一个数据接口，提供给业务部门使用，而开发一个接口，就算使用Spring Boot，也较费时费力。今天我给大家介绍一种不需要敲一行代码，五分钟就能实现的方法~

2022-09-20 16:24:00 1322

原创 StreamSets解析MySQL Binlog写入Kafka

前面与写入HBase一样

2022-08-30 11:25:35 1265

原创 StreamSets解析MySQL Binlog写入HBase

一种简单的解析MySQL Binlog方法

2022-08-26 16:19:48 814

原创记一次重大的生产事故

高高兴兴上班来，突闻任务大面积报错，经过一番排查，服务器上某个用户不见了。

2022-04-21 14:31:54 3684 10

原创 Presto与Hive SQL对比

近期工作涉及到数据治理，对一些老慢任务优化改造，主要是Hive转Presto，Hive实在是太慢了~本篇记录Hive转Presto遇到的问题，希望对你们有所帮助😘长期更新，记得收藏Presto不支持字段类型自动转换（插入和比对）非string类型字段，hive传入’'空字符串可自动转，presto需传入nullHive 自动转换，Presto try_cast(value AS type)Presto不支持字段值不符合定义的字段类型时自动置空如：字段类型为decimal(10,2)，h

2022-04-19 11:18:27 4030 4

转载金融风控指标-vintage、迁移率、滚动率、入催率、FPD、DPD

随着互联网金融的发展，对数据分析的需求越来越大。数据分析的目的其实是为了找到风险和收益的平衡点。高收益伴随着高风险，而低风险的回报又如同鸡肋。所以，太高的风险，太低的收益都不行。平衡点通俗来讲就是风险在控制范围之中，收益也可以接受。为了找到平衡点，我们通常会计算许多风控指标，这些风控指标是什么意思，他们有什么作用，我们挑几个金融领域比较常用的指标说说。

2022-03-28 17:48:07 20426 4

原创 DolphinScheduler无故删除HDFS上的Hive库表目录

亲爱的朋友们，我可爱的同事又搞了个大BUG待我慢慢道来…DolphinScheduler大家应该都用过，中国人开源的一个调度工具，类似Azkaban，本次的事情就是在DolphinScheduler上发生的。据领导描述，某团队负责的某业务数仓上云后，HDFS上的Hive库表目录总是无故被删，他们找不到原因，让我协助处理一下。本来某业务数仓上云是一个很简单的工作，对于DolphinScheduler上的任务而言，只需要把工作流导出，然后导入到云上的DolphinScheduler，不幸的是XX云上的S

2022-03-02 11:53:06 3807

原创使用Presto实现Hive动态分区

Presto和Impala、Spark SQL都是SQL查询引擎，也都是基于内存运算。但是Presto支持多种数据源，比如Hive、TiDB、Redis、Kafka、ES、Oracle等等，可以跨数据源连表查，既快又方便。不过多介绍了，下面进入正题。Hive 动态分区使用方法见下：set hive.exec.dynamic.partition=true; #开启动态分区，默认是falseset hive.exec.dynamic.partition.mode=nonstrict; #开启允许所有

2021-09-01 14:37:17 1769 5

原创使用Presto重写Hive分区表数据

Presto和Impala、Spark SQL都是SQL查询引擎，也都是基于内存运算。但是Presto支持多种数据源，比如Hive、TiDB、Redis、Kafka、ES、Oracle等等，可以跨数据源连表查，既快又方便。不过多介绍了，下面进入正题。Hive向分区表重写数据是这样的：insert overwrite tablename partition (year='2021')select a, b from tab;但是Presto不支持这种写法，一是不支持overwrite，二是不支

2021-08-12 17:55:15 3050 5

原创 Sentry安装使用

Sentry对于Hive表的权限管理粒度可以到列，见下：Sentry的安装使用网上有很多，但是我新建的用户和组在Hue配置权限并不起作用，经过一番探索，我终于发现了问题所在，详见下文。目录1 安装Sentry2 使用Sentry2.1 创建组2.2 创建用户2.3 赋予角色2.4 查看权限1 安装Sentry创建sentry数据库及用户，CM页面添加sentry若安装sentry提示没有mysql驱动，将mysql-connector-java.jar放到/usr/share/java下即可。

2021-05-21 11:10:56 940 3

原创 Kudu简单使用

环境版本：CDH 6.3.2 | Impala 3.2.0 | Hive 2.1.1 | Hue 4.2.0 | kudu 1.10.0# 创建kudu表，需指定主键、分区CREATE TABLE kudu_table( id BIGINT, name STRING, PRIMARY KEY(id))PARTITION BY HASH PARTITIONS 16STORED AS KUDU;# 创建impala外部表映射kudu表CREATE EXTERNAL TABL.

2021-05-20 18:15:48 675 2

原创 Kerberos常见问题汇总

问题汇总1.未生成票据2.主体密码错误3.KDC未启动4.票据缓存5.Peer indicated failure6.混合问题1.未生成票据报错内容：WARN ipc.Client: Exception encountered while connecting to the server : org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS]ls: Fa

2021-05-20 17:44:31 3541 2

原创 dolphinscheduler 报错及解决办法

1 目录权限问题ERROR orm.CompilationManager: Could not rename /tmp/sqoop-hive/compile/4c4230b9e5d67829fa1f847893ff8560/QueryResult.java to /tmp/dolphinscheduler/exec/process/2/7/25/35/./QueryResult.java. Error: /tmp/dolphinscheduler/exec/process/2/7/25/35/./Quer

2021-04-26 11:02:43 20037 16

原创在Windows下开发调试PySpark

Spark版本：2.4.0+cdh6.3.1Spark-Windows版本：spark-2.4.0-bin-hadoop2.7WinUtils版本：hadoop-2.7.1Python版本：3.7.2Java版本：1.8.0_121Scala版本：2.11.8 按需安装目录前言1 使用PyCharm开发PySpark直连Hive metastore1.1 下载相关包1.2 配置环境变量1.3 设置spark日志级别1.4 启动spark-sql1.5 创建测试表并插入数据1.6 安装相关包1.

2021-02-09 14:55:52 3813 1

原创大数据平台作业智能诊断/管理组件之Apache Eagle

源码见：https://github.com/apache/eagle官方文档见：http://eagle.apache.org/docs/latest目录前言一、Apache Eagle 介绍二、Quick StartInstallationBuild EagleDeploy Eagle三、遇到的问题前言随着业务开展，公司在大数据集群上的作业越来越多，而程序员的水平参差不齐，有些程序跑起来没有任何问题，但占用了极大的资源。为了改善这种情况，我最近调研了两个开源的大数据平台作业智能诊断/管理组件，D

2020-11-23 14:59:19 985 2

原创大数据平台作业智能诊断/管理组件之Dr.Elephant

源码及官方文档见：https://github.com/linkedin/dr-elephant目录前言一、Dr.Elephant 介绍二、Quick Setup Instructions三、遇到的问题前言随着业务开展，公司在大数据集群上的作业越来越多，而程序员的水平参差不齐，有些程序跑起来没有任何问题，但占用了极大的资源。为了改善这种情况，我最近调研了两个开源的大数据平台作业智能诊断/管理组件，本文先分享Dr.Elephant。一、Dr.Elephant 介绍Dr.Elephant被定位成一个对

2020-11-23 14:32:44 1121 1

原创基于Docker从零搭建Prometheus+Grafana

环境版本：Ubuntu Kylin 20.04目录1 安装docker2 拉取相关镜像3 node exporter3.1 start node exporter3.2 查看端口91003.3 访问url4 prometheus4.1 编辑prometheus.yml4.2 start prometheus4.2 查看端口90904.3 访问url5 grafana5.1 start grafana5.2 查看端口30005.3 访问url5.4 简单使用grafana备注：1 安装docker使用

2020-10-09 11:31:25 2109 6

原创基于Spark MLlib和Spark Streaming实现准实时分类

环境版本： ·Spark 2.0 ·Scala 2.11.8 在网上搜索Spark MLlib和Spark Streaming结合的例子几乎没有，我很疑惑，难道实现准实时预测有别的更合理的方式？望大佬在评论区指出。本篇博客思路很简单，使用Spark MLlib训练并保存模型，然后编写Spark Streaming程序读取并使用模型。需注意的是，在使用Spark MLlib之前我使用了python查看分析数据、清洗数据、特征工程、构造数据集、训练模型等等，且在本篇中直接使用了python构造的数据集。

2020-05-21 10:55:27 1053

原创 HBase 1.1.2 REST API 初体验

环境版本： ·HDP 2.5.3 ·HBase 1.1.2HBase提供了REST API，为开发者增加了更多选择。我们可以使用HBase REST API对表进行增删改查，但本篇博客主要使用查询功能。请注意HBase版本！请注意HBase版本！请注意HBase版本！1 启动HBase REST Server# 前台运行[root@hqc-test-hdp3 ~]# hbase rest start -p88882020-05-12 16:26:02,062 INFO [main] u

2020-05-13 11:28:36 1286 1

原创基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive

环境版本： HDP-2.5.3注意：HDP中Kafka broker的端口是6667，不是9092前言有两种方式可以将数据通过flume导入hive中，一是直接sink到hive中，二是sink到hdfs中，然后在hive中建个外部表。

2019-11-05 15:45:05 1963

原创使用Sqoop将SQL Server视图中数据导入Hive

环境版本： ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012文章目录1.下载sqljdbc4.jar放在$SQOOP_HOME/lib下2.测试sql server连接2.1 List available databases on a server2.2 List available tables in a database2.3 ...

2019-10-30 21:57:30 2221 2

原创 Hive、Beeline、Spark-SQL、Spark-Shell CLI使用

文章目录1 Hive2 Beeline3 Spark-SQL4 Spark-shell1 Hive[root@hqc-test-hdp1 ~]# su hdfs[hdfs@hqc-test-hdp1 root]$ cd# 准备数据[hdfs@hqc-test-hdp1 ~]$ vim phone.txt1 iphone5 2G 5999.02 oneplus 3G 2299.03 ...

2019-10-29 09:35:39 1621

原创 “联创黔线”杯大数据应用创新大赛

文章目录赛题介绍代码1 特征工程1.1 正样本1.2 负样本2 建模3 预测3.1 测试集4 提交结果0 查看数据0.1 训练数据0.1.1 正样本0.1.2 负样本0.1.3 天气数据0.2 测试数据0.2.1 测试集0.2.2 天气数据赛题地址：https://www.kesci.com/home/competition/5be92233954d6e001063649a又打了个酱油，最终成...

2019-07-31 18:59:12 2754

原创搭建CNN识别你的猫猫狗狗

本文为Udacity优达学城深度学习课程笔记第三篇，使用图像增强对猫狗图像进行分类。课程地址：https://classroom.udacity.com/courses/ud187最终目的是训练CNN模型，使其能识别上面的小狗狗是小狗狗。可能遇到的问题有过拟合、输入图像的尺寸不一，不过不用担心，本文会一一解决。为了保持笔记与课程内容一致，代码没有进行修改，如需提升识别准确率可自行对模型进行修...

2019-05-29 14:45:49 2014 2

原创 2019JDATA用户对品类下店铺的购买预测（机器学习一般步骤总结）

文章目录赛题介绍建模流程1.查看分析数据2.数据清洗3.构造数据集（特征工程）4.特征选择5.模型选择6.参数选择7.模型训练与测试8.模型融合赛题介绍赛题网址：https://jdata.jd.com/html/detail.html?id=8赛题背景京东零售集团坚持“以信赖为基础、以客户为中心的价值创造”这一经营理念，在不同的消费场景和连接终端上，在正确的时间、正确的地点为3亿多活跃...

2019-05-26 16:52:20 5583 3

原创使用Keras搭建CNN-MNIST 手写数字 Dataset

import tensorflow as tfF:\Anaconda3\envs\tensorflow-gpu\lib\site-packages\h5py\__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is depreca...

2019-04-18 11:39:36 1040

原创使用TF1.12搭建CNN-Fashion MNIST Dataset

import tensorflow as tftf.enable_eager_execution()from tensorflow import kerasimport numpy as npimport matplotlib.pyplot as pltimport osimport subprocessprint(tf.__version__)1.12.0fashio...

2019-04-18 11:29:28 1020

原创工业大数据介绍

一、工业大数据的定义工业大数据是指在工业领域，主要通过传感器等物联网技术进行数据采集、传输得来的数据，由于数据量巨大，传统的信息技术已无法对相应的数据进行处理、分析、展示，而在传统工业信息化技术的基础上借鉴了互联网大数据的技术，提出新型的基于数据驱动的工业信息化技术及其应用。二、工业大数据特点工业大数据主要有以下几个特点：1、数据来源主要是企业内部，而非互联网个人用户；2、数据采集方式更...

2019-03-11 13:09:49 6834

原创 Ambari离线安装Solr

Ambari没有集成Solr，但我在github上找到一个解决方案，如果您不需要离线安装可以参考下面链接： https://imaidata.github.io/blog/2017/09/18/%E7%94%A8Ambari%E9%83%A8%E7%BD%B2SOLR/1.下载压缩包并解压下载地址：https://download.csdn.net/download/dr_guo/106...

2018-09-05 13:08:28 1861 1

ambari离线安装solr所需文件

解压后可以获得solr.tgz和SOLR-github文件夹，具体使用方法请看我置顶博客 blog.csdn.net/dr_guo

2018-09-05

jdata_product.csv

2019京东JDATA算法大赛（用户对品类下店铺的购买预测）商品表，比赛总结：https://drguo.blog.csdn.net/article/details/90514911。其余数据下载：https://pan.baidu.com/s/1mQf-haFZP38er7FMDxpQWg 提取码：mxlo

2019-05-27

linux.x64_11gR2_database Centos6.5 Oracle11g

Centos6.5 离线安装 Oracle11g 所需安装包，共两个，全部解压即可使用。

2019-08-01

ntp离线安装rpm包

NTP及依赖rpm包，含autogen-libopts-5.18-5.el7.x86_64.rpm、ntp-4.2.6p5-18.el7.centos.x86_64.rpm、ntpdate-4.2.6p5-18.el7.centos.x86_64.rpm

2018-07-05

jce8&mysql.zip

含jce_policy-8.zip，mysql57-community-release-el7-8.noarch.rpm，mysql-connector-java-5.1.39.jar

2021-05-20

iris(鸢尾花卉)数据集-二分类

该数据集只保留了原来iris(鸢尾花卉)数据集3个类virginica，versicolor和setosa中的versicolor和setosa，并将versicolor用0.0表示，setosa用1.0表示。每类50个样本；每个样本是一个4维的特征向量,萼片长，萼片宽，花瓣长，花瓣宽；

2017-08-23

eagle-0.5.1-SNAPSHOT-bin.tar.gz

编译好的apache eagle 0.5.1，可直接解压执行，使用说明详见：https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

libclntsh.so.11.1

你是否还在为报错sqlplus: error while loading shared libraries: libclntsh.so.11.1: cannot open shared object file: No such file or directory而犯愁，不用犯愁了，赶紧下载吧！

2019-08-01

eagle-0.5.0-bin.tar.gz

编译好的apache eagle 0.5.0，可直接解压执行，使用说明详见：https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

mysql离线安装rpm包

MySQL及依赖 rpm包，含MySQL-client-5.6.31-1.el6.x86_64.rpm、MySQL-devel-5.6.31-1.el6.x86_64.rpm、MySQL-server-5.6.31-1.el6.x86_64.rpm、net-tools-2.0-0.22.20131004git.el7.x86_64.rpm、mysql-connector-java-5.1.39.jar、mysql-connector-odbc-5.3.6-linux-el6-x86-64bit.tar.gz

2018-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ambari离线安装solr所需文件

jdata_product.csv

linux.x64_11gR2_database Centos6.5 Oracle11g

ntp离线安装rpm包

jce8&mysql.zip

iris(鸢尾花卉)数据集-二分类

eagle-0.5.1-SNAPSHOT-bin.tar.gz

libclntsh.so.11.1

eagle-0.5.0-bin.tar.gz

mysql离线安装rpm包

Flume采集MySQL数据所需jar包.zip

libfb303-0.9.3.jar

libfb303.jar

fashion-mnist.zip

Centos6.5-Oracle11g离线安装所需依赖rpm包.zip

pyspark相关包.zip

py4j-0.10.9.1-py2.py3-none-any.whl

cats_and_dogs_filtered.zip

空空如也