ZhaoHY KeepRunning-CSDN博客

原创 ubuntu20 编译报错 -Werror=address-of-packed-member

werror报错

2022-06-08 15:57:14 2522

原创 warning: libnl.so.1, needed by XXX/libibverbs.so, not found (t

libnl.so.1

2022-06-08 11:59:16 2659

原创 cc: fatal error: cannot execute ‘cc1’: execvp: No such file or directory报错

cmake 缺少cc1

2022-06-06 10:17:21 14774 1

highlight: a11y-dark一.Hive架构1）用户接口：ClientCLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问 hive）2）元数据：Metastore元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；默认存储在自带的 derby 数据库中，推荐使用 MySQL 存储 Metastore3）Hadoop使用 HD.

2021-07-27 14:06:20 267

原创 Hadoop原理与调优

一. Hadoop集群搭建本地搭建hadoop集群至少要三台机器，因为之后还要搭建zookeeper，kafka之类的，涉及到master选举，所以除了1以外最小的基数就是3。另外关于虚拟机内存硬盘设置，这里建议，如果日后想在本机搭建数仓，尤其是要安装一大堆hive，hbase，kylin/presto/druid，抑或是想装上solr/Elasticsearch做分布式搜索引擎的，内存倒还好，给个6-8个g左右都没啥问题，关键是硬盘要给的充足，有条件的升个40-50G左右（时常清理日志和没用的安装包也

2021-07-27 11:00:18 1173

原创 ElasticSearch原理与实践

一. ElasticSearch安装1.Windows 版本Elasticsearch 的官方地址：https://www.elastic.co/cn/下载地址：https://www.elastic.co/cn/downloads/past-releases#elasticsearch本文案例选择的是7.8.0目录文件：解压后，进入 bin 文件目录，点击 elasticsearch.bat 文件启动 ES 服务注意：9300 端口为 Elasticsearch 集群间组件的通信端口，9

2021-07-26 23:02:07 336

原创本地虚拟机集群搭建数据仓库实战

组件目录一. 环境准备二. JDK安装三. Hadoop安装过程四. Zookeeper安装五. Flume安装六. Kafka安装七. MySQL安装八. Sqoop安装九. Hive安装十. 安装ES5.2十一. 安装 Spark2.4.3十二. 安装Livy十三. Maven十四. Apache Griffin编译一. 环境准备内存4G，硬盘50G (根据自己的电脑配置酌情决定，内存最好4G起步)安装好linux/boot 200M/swap 2g/ 剩余*安装VMTools关闭防火

2021-07-02 16:31:27 660

原创 Apache Griffin+Flink+Kafka实现流式数据质量监控实战

项目总览一. 组件及版本二. kafka数据生成脚本三. Flink流式处理四. Apache Griffin配置与启动五. 全局代码一. 组件及版本本文用的组件包括以下几个，是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。JDK (1.8)MySQL(version 5.6)Hadoop (2.7.2)Hive (version 2.4)Spark (version 2.4.1)Kafka (version 0.11)Griffin (ver

2021-07-01 21:10:19 1415 4

原创 Apache Griffin调试各种报错总结

1、数据库报错 Table ‘quartz.DATACONNECTOR’ doesn’t exist2021-01-18 14:54:54.135 ERROR 122541 --- [http-nio-8081-exec-8] o.a.c.c.C.[.[.[.[dispatcherServlet] [175] : Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Re

2021-06-28 17:14:11 2535 2

原创数据分区方法总结

@[TOC]数据分区数据分区与数据复制分区通常与复制结合使用，即每个分区在多个节点都存有副本。这意味着某条记录属于特定分区，而同样的内容会保存在不同的节点上以提高系统的容错性。一个节点上可能存储了多个分区。每个分区都有自己的主副本，例如被分配给某节点，而从副分配在其他一些节点。一个节点可能即是某些分区主副本，同时又是其他分区的从副本。键－值数据的分区而如果分区不均匀，则会出现某些分区节点比其他分区承担更多的数据量或查询负载，称之为倾斜。倾斜会导致分区效率严重下降，在极端情况下，所有的负载可能

2021-06-28 00:01:22 1605

原创五. Apache Griffin UI界面化操作

1. Apache Griffin 用户界面操作Apache Griffin 是一种开源数据质量解决方案，适用于流式或批处理数据上下文中任何规模的分布式数据系统。而且他还提供了基于Angular的界面化操作，可以更加便捷的手动设置源数据，目标数据，监测指标，结果展示等功能。2. 过程登录系统后，可以按照以下步骤操作：首先，创建一个新的度量。然后，创建一个作业来定期处理该度量。最后，热图和仪表板将显示度量的数据图。2.1 数据源单击右上角的“DataAssets”来查看数据资产此处

2021-06-22 16:34:58 1291 3

原创四.Apache Griffin基于Hive batch批数据的质量监控实战

数据集此案例适用于基于hive，HDFS等批数据作为数据源进行数据质量监控。假设我们有一个数据集（demo_src），按小时划分，我们想知道每个小时的数据是什么样的。为简单起见，假设两个数据集都具有与此相同的架构：id bigint age int desc

2021-06-22 15:34:48 745

原创三. Apache Griffin基于Spark Streaming流数据质量监控实战

数据集假设我们在不同的 kafka 主题（源、目标）中有两个流数据集，我们需要根据源数据集知道目标数据集的数据质量如何。为简单起见，假设两个主题的数据都是 json 字符串，如下所示{"id": 1, "name": "Apple", "color": "red", "time": "2018-09-12_06:00:00"}{"id": 2, "name": "Banana", "color": "yellow", "time": "2018-09-12_06:01:00"}...环境准备

2021-06-22 15:23:21 620 1

原创二. Apache Griffin快速入门

Apache Griffin 入门指南数据质量模块是大数据平台中必不可少的一个功能组件，Apache Griffin（以下简称Griffin）是一个开源的大数据数据质量解决方案，它支持批处理和流模式两种数据质量检测方式，可以从不同维度（比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等）度量数据资产，从而提升数据的准确度、可信度。安装部署依赖准备JDK (1.8 or later versions)MySQL(version 5.6及以上)Hadoop (2.6.0

2021-06-22 15:06:05 674

原创一.Apache Griffin概述

文章目录Apache Griffin概述一.背景二.框架结构三.支持的功能列表Apache Griffin概述Apache Griffin 是一个建立在 Apache Hadoop 和 Apache Spark 之上的数据质量服务平台 (DQSP)。它提供了一个全面的框架来处理不同的任务，例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证，以及跨多个数据系统的统一数据质量可视化。它旨在解决大数据应用中数据质量领域的挑战。一.背景大数据应用当中有一个无法回避的问题，即数据质量的测量。针对

2021-06-22 14:44:31 3855

原创数据质量监控框架及解决方案总结

数据质量监控框架及解决方案总结概述一.[Apache Griffin](https://github.com/apache/griffin)(Ebay开源数据质量监控平台)1.1 工作流程1.2 特点1.3 数据质量模型1.4 官方及参考资料二. [Deequ](https://github.com/awslabs/deequ)(Amazon开源数据质量监控平台)2.1 特点2.2 架构三. [DataWorks](https://helpcdn.aliyun.com/product/72772.html)

2021-06-21 21:15:43 2545

原创数据可视化工具-小马BI简单教程【大数据专业必学】

数据可视化工具-小马BI简单教程【大数据专业必学】欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎

2021-06-18 11:35:13 2523