自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 ubuntu20 编译报错 -Werror=address-of-packed-member

werror报错

2022-06-08 15:57:14 1703 1

原创 warning: libnl.so.1, needed by XXX/libibverbs.so, not found (t

libnl.so.1

2022-06-08 11:59:16 2195

转载 编译报错问题

编译报错

2022-06-08 11:51:15 377

原创 cc: fatal error: cannot execute ‘cc1’: execvp: No such file or directory报错

cmake 缺少cc1

2022-06-06 10:17:21 12505 1

原创 ubuntu20.04无法安装gcc

gcc安装

2022-06-02 15:23:47 993

原创 Hive基础与调优

highlight: a11y-dark一.Hive架构1)用户接口:ClientCLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive)2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是 default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的 derby 数据库中,推荐使用 MySQL 存储 Metastore3)Hadoop使用 HD.

2021-07-27 14:06:20 206

原创 Hadoop原理与调优

一. Hadoop集群搭建本地搭建hadoop集群至少要三台机器,因为之后还要搭建zookeeper,kafka之类的,涉及到master选举,所以除了1以外最小的基数就是3。 另外关于虚拟机内存硬盘设置,这里建议,如果日后想在本机搭建数仓,尤其是要安装一大堆hive,hbase,kylin/presto/druid,抑或是想装上solr/Elasticsearch做分布式搜索引擎的,内存倒还好,给个6-8个g左右都没啥问题,关键是硬盘要给的充足,有条件的升个40-50G左右(时常清理日志和没用的安装包也

2021-07-27 11:00:18 1027

原创 ElasticSearch原理与实践

一. ElasticSearch安装1.Windows 版本Elasticsearch 的官方地址:https://www.elastic.co/cn/下载地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch本文案例选择的是7.8.0目录文件:解压后,进入 bin 文件目录,点击 elasticsearch.bat 文件启动 ES 服务注意:9300 端口为 Elasticsearch 集群间组件的通信端口,9

2021-07-26 23:02:07 263

原创 本地虚拟机集群搭建数据仓库实战

组件目录一. 环境准备二. JDK安装三. Hadoop安装过程四. Zookeeper安装五. Flume安装六. Kafka安装七. MySQL安装八. Sqoop安装九. Hive安装十. 安装ES5.2十一. 安装 Spark2.4.3十二. 安装Livy十三. Maven十四. Apache Griffin编译一. 环境准备内存4G,硬盘50G (根据自己的电脑配置酌情决定,内存最好4G起步)安装好linux/boot 200M/swap 2g/ 剩余*安装VMTools关闭防火

2021-07-02 16:31:27 373

原创 Apache Griffin+Flink+Kafka实现流式数据质量监控实战

项目总览一. 组件及版本二. kafka数据生成脚本三. Flink流式处理四. Apache Griffin配置与启动五. 全局代码一. 组件及版本本文用的组件包括以下几个,是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。JDK (1.8)MySQL(version 5.6)Hadoop (2.7.2)Hive (version 2.4)Spark (version 2.4.1)Kafka (version 0.11)Griffin (ver

2021-07-01 21:10:19 1126 4

原创 Apache Griffin调试各种报错总结

1、数据库报错 Table ‘quartz.DATACONNECTOR’ doesn’t exist2021-01-18 14:54:54.135 ERROR 122541 --- [http-nio-8081-exec-8] o.a.c.c.C.[.[.[.[dispatcherServlet] [175] : Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Re

2021-06-28 17:14:11 1839 2

原创 数据分区方法总结

@[TOC]数据分区数据分区与数据复制分区通常与复制结合使用,即每个分区在多个节点都存有副本。这意味着某条记录属于特定分区 ,而同样的内容会保存在不同的节点上以提高系统的容错性。一个节点上可能存储了多个分区。每个分区都有自己的主副本,例如被分配给某节点,而从副分配在其他一些节点。 一个节点可能即是某些分区主副本,同时又是其他分区的从副本。键-值数据的分区而如果分区不均匀,则会出现某些分区节点比其他分区承担更多的数据量或查询负载,称之为倾斜。倾斜会导致分区效率严重下降,在极端情况下,所有的负载可能

2021-06-28 00:01:22 1411

原创 五. Apache Griffin UI界面化操作

1. Apache Griffin 用户界面操作Apache Griffin 是一种开源数据质量解决方案,适用于流式或批处理数据上下文中任何规模的分布式数据系统。而且他还提供了基于Angular的界面化操作,可以更加便捷的手动设置源数据,目标数据,监测指标,结果展示等功能。2. 过程登录系统后,可以按照以下步骤操作:首先,创建一个新的度量。然后,创建一个作业来定期处理该度量。最后,热图和仪表板将显示度量的数据图。2.1 数据源单击右上角的“DataAssets”来查看数据资产此处

2021-06-22 16:34:58 1139 3

原创 四.Apache Griffin基于Hive batch批数据的质量监控实战

数据集此案例适用于基于hive,HDFS等批数据作为数据源进行数据质量监控。假设我们有一个数据集(demo_src),按小时划分,我们想知道每个小时的数据是什么样的。为简单起见,假设两个数据集都具有与此相同的架构:id bigint age int desc

2021-06-22 15:34:48 617

原创 三. Apache Griffin基于Spark Streaming流数据质量监控实战

数据集假设我们在不同的 kafka 主题(源、目标)中有两个流数据集,我们需要根据源数据集知道目标数据集的数据质量如何。为简单起见,假设两个主题的数据都是 json 字符串,如下所示{"id": 1, "name": "Apple", "color": "red", "time": "2018-09-12_06:00:00"}{"id": 2, "name": "Banana", "color": "yellow", "time": "2018-09-12_06:01:00"}...环境准备

2021-06-22 15:23:21 512 1

原创 二. Apache Griffin快速入门

Apache Griffin 入门指南数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。安装部署依赖准备JDK (1.8 or later versions)MySQL(version 5.6及以上)Hadoop (2.6.0

2021-06-22 15:06:05 495

原创 一.Apache Griffin概述

文章目录Apache Griffin概述一.背景二.框架结构三.支持的功能列表Apache Griffin概述Apache Griffin 是一个建立在 Apache Hadoop 和 Apache Spark 之上的数据质量服务平台 (DQSP)。 它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。 它旨在解决大数据应用中数据质量领域的挑战。一.背景大数据应用当中有一个无法回避的问题,即数据质量的测量。针对

2021-06-22 14:44:31 3634

原创 数据质量监控框架及解决方案总结

数据质量监控框架及解决方案总结概述一.[Apache Griffin](https://github.com/apache/griffin)(Ebay开源数据质量监控平台)1.1 工作流程1.2 特点1.3 数据质量模型1.4 官方及参考资料二. [Deequ](https://github.com/awslabs/deequ)(Amazon开源数据质量监控平台)2.1 特点2.2 架构三. [DataWorks](https://helpcdn.aliyun.com/product/72772.html)

2021-06-21 21:15:43 2312

原创 数据可视化工具-小马BI简单教程【大数据专业必学】

数据可视化工具-小马BI简单教程【大数据专业必学】欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎

2021-06-18 11:35:13 1051

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除