大数据
文章平均质量分 88
一粒尘埃zc
这个作者很懒,什么都没留下…
展开
-
Clickhouse on S3 部署方案
Clickhouse on S3 部署方案,单节点架构,分布式(不带副本)架构,分布式(带副本)架构原创 2022-09-05 12:08:41 · 584 阅读 · 0 评论 -
AWS CUR 使用 ClickHouse S3 外表
在存放 AWS CUR 的账号的 S3 bucket policy 里添加权限,允许 ClickHouse 跨账号读取桶内资源(新增以下代码中 Statement 内容,但不覆盖原有策略,此处添加的是 resource-based policy,授予 ClickHouse 使用的 IAM Role 只读权限。跨账号访问 S3 bucket 的权限策略,此处添加的是 identity-based policy,授予 ClickHouse 使用的 IAM Role 只读权限。原创 2022-09-16 17:58:36 · 441 阅读 · 0 评论 -
ClickHouse S3 外表调研
Superset 是非常优秀的开源的数据可视化工具,尽管暂不直接支持基于 S3 外表来创建 Dataset 进行数据可视化,但我们可以通过 Dataset 的 Virtual SQL 功能来解决。当前,ClickHouse 能快速的查询和分析自身写入到 S3 上的数据,但我们还期望 ClickHouse 能查询和分析。除了提供对建表语句中的字段进行查询外,还额外提供如下 2 个虚拟列供我们查询和筛选。来提供对 S3 上数据查询和分析的功能原创 2022-09-05 11:53:21 · 667 阅读 · 0 评论 -
数据可视化工具调研
metabase是由 metabase 公司开发的大数据分析工具,可以让用户简单、快速的对数据进行分析。目前有社区版和企业版 2 个版本。superset是 Apache 开源的一款分布式的数据分析工具,它具备快速、轻量、直观的特点,使用户可以轻松探索和可视化自己的数据。在支持的数据源、数据可视化、权限及 Dashboard 种类等功能上 Superset 要比 Metabase 占一定的优势。在数据可视化情况下 Metabase 可以做多表的 Join 操作。而只能针对单表来进行可视化操作。原创 2022-09-05 10:34:59 · 428 阅读 · 0 评论 -
多环境 Flink Job 的生成方案(Maven)
多环境 Flink Job 的生成方案(Maven)原创 2022-09-05 10:02:57 · 973 阅读 · 0 评论 -
S3 文件操作使用实践
aws s3 sdk-java 对象操作,对象分段上传,对象下载,对象完整性校验。原创 2021-12-23 18:25:40 · 3791 阅读 · 2 评论 -
Flink-1.12.0 编译安装
文章目录1.下载flink源码2.解压1.下载flink源码下载src源码,不是bin二进制文件。官网寻找或者github寻找源码https://flink.apache.org/downloads.htmlhttps://github.com/apache/flink/releases2.解压tar -zxvfmvn clean install -DskipTests -Dfast -Pvendor-repos -Dhadoop.version=2.6.0-cdh5.15.1...原创 2021-01-17 15:43:41 · 1804 阅读 · 9 评论 -
Hadoop之数据仓库Hive
文章目录1.Hive介绍1.1 Hive是什么1.2 Hive产生背景1.3 使用Hive的好处1.4 Hive的架构1.Hive介绍1.1 Hive是什么Hive 是在 Hadoop 分布式文件系统 (HDFS) 之上开发的 ETL 和数据仓库工具由 Facebook 实现并开源Hive 提供写 SQL 的方式对存储在 Hadoop 集群里面的数据进行清洗、加工,生成新的数据并存储到 Hadoop 集群当中。1.2 Hive产生背景Mapreduce 编程不方便没学过java的怎么办原创 2020-07-05 19:55:06 · 354 阅读 · 0 评论 -
Hadoop之资源调度框架YARN
文章目录1.YARN产生背景1.1 MapReduce1.x 存在一些问题1.2 优化资源利用率和降低运维成本2.YARN概述2.1 关键词汇概念2.2 执行流程3.YARN的部署4.提交Job到YARN运行4.1 运行hadoop内置mapreduce-examples任务4.2 运行自己编写的任务4.2.1 **AccessYARNApp**4.2.2 打包项目4.2.3 上传项目jar4.2.4 执行命令1.YARN产生背景1.1 MapReduce1.x 存在一些问题JobTracker原创 2020-06-07 21:43:40 · 260 阅读 · 0 评论 -
Hadoop之MapReduce 根据用户流量日志文件数据统计每个用户流量总和
文章目录1.实现需求2.MapReduce编程模型1.实现需求2.MapReduce编程模型input读取文件splitting分割文件,框架自动完成mapping处理文件,以key,value的方式存储 ,需要自己实现shuffing把相同的key归类到一起,框架自动完成Reducing处理相同的key的数据,需要自己实现Final result处理最后结果...原创 2020-05-16 17:27:35 · 2094 阅读 · 0 评论