大数据
文章平均质量分 87
子毅168
这个作者很懒,什么都没留下…
展开
-
Kylin4.0安装部署使用
1 Kylin4.01 新架构https://cwiki.apache.org/confluence/display/KYLIN/Architecture+of+Kylin+4.X2 新特性Parquet Storage:使用parquet来存储cubeid(移除了hbase作为存储) Spark Build Engine:使用spark来构建cubeid(移除了mr) RDBMS Metastore:使用RDBMS来存储metastore ...https://cwiki.ap原创 2021-02-08 19:44:56 · 3625 阅读 · 3 评论 -
hive udf使用及踩坑
hive注册udf函数1 maven项目pow文件 <properties> <hive.version>2.1.1-cdh6.1.0</hive.version> </properties> <dependencies> <dependency> <groupId>org.apache.hive</groupId&.原创 2020-12-25 17:15:12 · 2363 阅读 · 0 评论 -
Cloudera Manager API使用(附代码)
Cloudera Manager API使用前言1. 需求:如何获取CDH集群的资源使用情况,包括cpu、磁盘、内存2. 实现:调用CDH提供的Cloudera Manager API包,来实时访问CDH上的各种监控指标数据,如下图接口介绍1 获取集群信息2 获取主机信息3 获取服务信息4 获取指标时序数据信息5 详细信息看:官网文档,使用实例demo:后面- cloudera官网文档:https://docs.cloudera.com/do...原创 2020-09-30 14:29:20 · 5419 阅读 · 6 评论 -
cdh客户端部署
cdh客户端部署1. 服务器准备linux服务器CentOS72. 安装jdk1.8基本操作,这儿就不做介绍了3. 下载CDH的parcels包下载版本(这儿展示CDH6.1.0的,其他版本操作也一样的) cdh6.1.0 parcels下载地址,这儿建议挂代理下,否则可能有点慢,差不多1.9G4. 上传parcels包到CentOS7服务器上mkdir -p /opt/cloudera/parcelscd /opt/cloudera/parcelsrz 上传刚才.原创 2020-07-27 13:21:12 · 2829 阅读 · 2 评论 -
Hive实现自增列的两种方法
Hive实现自增列的两种方法背景说明1.多维数据仓库中的维度表和事实表一般都需要有一个代理键,作为这些表的主键,代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列,但它也有一些对自增序列的支持,通常有两种方法生成代理键:使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。需求1. 假设有维度表tbl_dim和过渡表tbl_stg,现在要将tbl_stg的数据装载到tbl_dim,装载的同时生成维度表的代理键。实现.转载 2020-07-12 23:08:09 · 1257 阅读 · 0 评论 -
Azkaban安装部署教程
Azkaban安装部署教程源码编译下载源码git clone https://github.com/azkaban/azkaban.git#ps 如果github下载慢的话可以去码云上面下载码云地址:https://gitee.com/mirrors/azkaban?_from=gitee_searchgit clone https://gitee.com/mirrors/azkaban.git选择分支,编译成tar包git tag #查看所有taggit checkou原创 2020-06-28 21:49:30 · 644 阅读 · 0 评论 -
DataX3.0简介
DataX3.0离线同步工具介绍目录DataX3.0离线同步工具介绍一. DataX3.0概览设计理念当前使用现状二、DataX3.0框架设计三. DataX3.0插件体系四、DataX3.0核心架构核心模块介绍:DataX调度流程:五、DataX 3.0六大核心优势可靠的数据质量监控丰富的数据转换功能精准的速度控制强劲的同步性能健壮...转载 2020-04-27 21:54:24 · 278 阅读 · 0 评论 -
Spark写入ES优化
文章目录Spark写入ES优化Spark写入ES方案写入性能优化案例Spark写入ES优化Spark写入ES方案1.写入demo,详情看官网- Elasticsearch for Apache Hadoop写入性能优化给filesystem cache更多的内存filesystem cache被用来执行更多的IO操作,如果我们能给filesystemcache更多的内存资源,那么...原创 2020-03-23 19:38:22 · 3229 阅读 · 0 评论 -
java.io.IOException: No FileSystem for scheme: hdfs
java.io.IOException: No FileSystem for scheme: hdfs在这篇文章中,介绍了如何将Maven依赖的包一起打包进jar包。使用maven-assembly打成jar后,将这个jar提供给其他工程引用的时候,报出如下错误:log4j:WARN No appenders could be found for logger (org.apa...原创 2020-03-04 17:00:18 · 962 阅读 · 0 评论 -
zookeeper的原理和应用
场景一有这样一个场景:系统中有大约100w的用户,每个用户平 均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从 多个不同的网路出口进行访问外网,计算的压力得到缓解,那么每台机器的计算压力也不会很大了。通过我们的讨论和以往的经验判断在这场景中可以实现并行计算,但我们还期望能对并行计...转载 2020-02-19 17:06:12 · 852 阅读 · 0 评论 -
时序数据库技术体系 – Druid 多维查询之Bitmap索引
文章目录时序数据库技术体系 – Druid 多维查询之Bitmap索引背景Bitmap索引到底是什么Bitmap索引如何在内存中构建Bitmap索引构建时机维度列构建维度字典构建Bitmap索引Bitmap索引如何进行压缩处理Bitmap索引为什么需要压缩Bitmap索引如何进行压缩Bitmap索引如何持久化存储维度字典文件存储Bitmap索引文件存储查询时如何根据Bitmap索引构建Cursor...转载 2020-01-17 23:18:11 · 870 阅读 · 0 评论 -
Hive拉链表设计
文章目录拉链表设计选择原因具体实现拉链表设计选择原因选用拉链表的原因(粒度:天)利 1) 相对于全量表来说,会省很多磁盘(因为从第一次初始化后,每天就只需要导入增量数据即可) 2) 能有效的保留数据的整个生命周期弊 1)随着时间的迁移,拉链表会越来越大,查询性能会逐渐降低解决办法 1)可以在查询引擎中对t_start_date和t_end_date做索引 2)另外还可以...原创 2019-11-30 14:17:10 · 281 阅读 · 0 评论 -
Hive数据同步到ES
文章目录Hive2Es需求准备工作-集群准备工作-数据Hive编码服务器部署Hive2Es需求将Hive的user标签数据同步到ElasticSearch每天生成一个index将user_id作为文档id准备工作-集群Hadoop集群、Hive集群、Yarn集群(用的是CDH)Spark集群(用的是CDH)ElasticSearch集群(单独部署的)准备工作-数据Hi...原创 2019-10-16 20:19:05 · 1371 阅读 · 0 评论 -
Java搭建Spark程序,提交到Yarn
文章目录Java搭建Spark程序,提交到Yarn测试DemoJava搭建Spark程序,提交到Yarn测试Demopow文件依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www...原创 2019-08-18 21:39:39 · 1680 阅读 · 2 评论 -
Spark2.4读取HDFS失败
报错:Exception in thread “main” java.lang.IllegalAccessError: class org.apache.hadoop.hdfs.web.HftpFileSystem cannot access its superinterface org.apache.hadoop.hdfs.web.TokenAspect$TokenManagementDel...原创 2019-08-13 18:28:52 · 850 阅读 · 0 评论 -
开源OLAP引擎对比
文章目录开源OLAP引擎对比OLAP简介分布式OLAP引擎分类及对比基于MPP架构的ROLAP引擎预计算引擎架构的MOLAP搜索引擎架构纯列存OLAP基于内存的SnappyData对比开源OLAP引擎对比OLAP简介OLAP(On-Line Analytical Processing),即联机分析处理,其主要的功能在于方便大规模数据分析及统计计算,对决策提供参考和支持特点数据量大...原创 2019-07-28 15:59:50 · 10092 阅读 · 1 评论 -
Apache Pulsar和Apache BookKeeper
文章目录Apache Pulsar诞生背景及追求诞生背景发展历程追求、愿景安装部署安装参考相关知识介绍消息消费模型生产(发布)消费模型ACK机制消息的保留策略对比Kafka系统架构以及设计理念pulsar的分层架构部署架构存储和服务分离Pulsar的监控和报警Pulsar的其他应用DemoPulsar的应用场景与案例Apache BookKeeper术语和定义Bookeeper部署架构总结推荐一篇...原创 2019-05-28 23:43:51 · 1912 阅读 · 0 评论 -
CDH安装
Vmware14虚拟机安装Ubuntu16.04:https://blog.csdn.net/salmon_zhang/article/details/79468918 Ubuntu16.04安装CDH5.14.2:https://www.cnblogs.com/joy9707/p/9063564.html vmware14 虚拟机一段时间没用,再打开后黑屏没反应,命令:netsh...转载 2018-12-13 16:43:36 · 130 阅读 · 0 评论 -
Spring-Kafka
文章目录Spring-KafkakafkaConsumerkafkaConsumer消费者模型Consumer ConfigskafkaProducerkafkaProducer生产者模型Producer Configs使用过程中踩的坑Spring-Kafka参考文章:深入剖析spring-kafka kafkaConsumerkafkaConsumer消费者模型spring-kafk...原创 2019-01-10 15:48:47 · 734 阅读 · 0 评论 -
Hive安装以及异常处理
文章目录Hive安装Hive元数据库Mysql的安装hive的安装Hive安装过程中的异常以及解决方法Hive安装Hive元数据库Mysql的安装(这儿展示Ubuntu系统安装Mysql)1. sudo apt-get install mysql-server2. apt-get install mysql-client3. sudo apt-get install libmysqlc...原创 2019-01-11 13:52:47 · 579 阅读 · 0 评论 -
Spark集群搭建
文章目录Spark集群搭建Spark集群搭建sprak完全分布式搭建:spark安装包下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgzscala安装包下载地址:https://www.scala-lang.org/download/2.11.2.html...原创 2019-01-11 21:14:26 · 532 阅读 · 2 评论 -
Hadoop完全分布式
文章目录Hadoop完全分布式搭建Hadoop原理介绍搭建背景说明VMware虚拟机的安装使用虚拟机准备组件准备开始搭建hadoop分布式集群安装jdk和hadoopHadoop完全分布式搭建Hadoop原理介绍查看我的另一篇文章:https://blog.csdn.net/weixin_42529806/article/details/84026873搭建背景说明用于学习大数据使用...原创 2019-01-09 11:01:23 · 1055 阅读 · 3 评论 -
Ali Canal
文章目录Ali Canal背景需求数据同步解决方案常规思路高效思路Canal组件介绍使用canal下载地址canal在IDEA或者Eclipse中的使用示例linux上配置使用Canal---QuickStart常见问题Ali Canal背景需求背景:分布式系统中会存在许多中间件,比如:Redis、Kafka、大数据存储,但是生产环境核心数据肯定是存在mysql的需求:如何将mysql的...原创 2019-01-27 16:03:26 · 540 阅读 · 0 评论 -
Kafka的架构及其原理
文章目录Kafka的架构及其原理概述kafka体系架构高可靠性文件结构复制原理和同步方式ISR数据可靠性和持久性保证消息传输过程的可靠性保障高性能Kafka的架构及其原理概述Kafka最初由LinkedIn公司开发的分布式消息系统,后来才贡献给了Apache,底层是由Scala编写具有高性能、持久化、多副本备份、横向扩展的能力基于发布-订阅模式(push-pull),常用作解耦、削峰、...原创 2019-01-27 16:20:50 · 356 阅读 · 0 评论 -
Windows下运行HDFS、MapReduce报错问题
文章目录Windows下运行HSFS、MapReduce报错问题Windows下运行HSFS、MapReduce报错问题问题1:安装目录不能有中文名问题2: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable nu...原创 2019-03-01 11:05:22 · 299 阅读 · 0 评论 -
Flink实战(一)
文章目录Flink实战(一)Flink概述Flink是什么定义Stateful Computations over Data StreamsFlink的诞生和发展Flink特性Flink的生态与未来核心组件生态Flink未来Flink Use CasesFlink主要应用场景案例Flink vs Spark流处理框架对比Flink vs SparkFlink实战(一)Flink概述Flink...原创 2019-03-01 20:22:06 · 6982 阅读 · 0 评论 -
Flink实战(二)
文章目录Flink初探快速生成Flink项目Flink Batch版 WordCountFlink Stream版 WordCountFlink初探快速生成Flink项目推荐工具IDEA+Maven+Git推荐开发语言Java或者Scalaflink-quickstart:https://ci.apache.org/projects/flink/flink-docs-r...原创 2019-03-01 20:57:16 · 1068 阅读 · 0 评论 -
Flink实战(三)
文章目录Flink编程模型Flink分层架构Flink核心组件Flink分层架构Flink DataFlowFlink DataFlow基本套路Flink编程模型Flink分层架构Flink核心组件核心组件Flink分层架构Stateful Stream Processing位于最底层,是core API的底层实现Processing Function利用低阶,构建...原创 2019-03-02 02:55:25 · 1163 阅读 · 0 评论 -
Flink实战(四)
文章目录Flink RuntimeFlink运行时概念Flink运行时架构Slot分配与共享Slot与parallelismFlink部署方式Flink RuntimeFlink运行时概念JobManagerTaskManagerTaskManager SlotsJobTask & SubtaskOperatorParallelismChainSlotSharing...原创 2019-03-02 11:50:08 · 658 阅读 · 0 评论 -
Flink实战(五)
文章目录Flink流处理过程剖析前言思考流的时间有序性保证窗口有序性流数据的容错:Checkpoint机制流、批处理对比flink流处理容错保障:Checkpoint机制StateFlink流处理过程剖析前言思考分布式领域,计算和存储一直是两大子领域各自分布式理念的实现逻辑也完全不同流的时间有序性保证背景:流处理框架消费kafka的topic的数据(多个分区),由于网络延迟...原创 2019-03-19 23:37:22 · 624 阅读 · 0 评论 -
Spring-Kafka源码解析
文章目录Spring-KafkakafkaConsumerkafkaConsumer消费者模型spring-kafka consumer实现Consumer ConfigskafkaProducerkafkaProducer生产者模型Producer Configs使用过程中踩的坑坑1坑2Spring-KafkakafkaConsumerkafkaConsumer消费者模型spring-...原创 2019-04-29 22:31:21 · 2434 阅读 · 0 评论 -
Hadoop
HadoopHadoophadoop简介hadoop的特点hadoop版本演进hadoop1.0(0.20x 0.21x 0.22x 1.x)hadoop2.0(0.23x 2.x)hadoop2.0生态圈核心内容子项目Hadoop分布式文件系统:HDFSHDFS简介HDFS体系架构HDFS数据复制HDFS技术要点回顾Hadoop统一资源管理框架YARN概述YARN体系架构YARN应用工作流程YA...原创 2018-11-13 12:26:37 · 624 阅读 · 0 评论
分享