impala 0

在写impala的技术文档前,先做一下工作的整理。 架构是  日志收集到kafka ,经过清洗后存放到kudu中,然后定时去做mapreduce 任务,将kudu中的老表的数据分配到hdfs 中。 其中 hdfs 是用hive来管理, 文件格式是parquet格式(列式存储)。 通过impal...

2018-08-16 09:36:33

阅读数 76

评论数 0

大数据的整理

主要分为,大数据运维方向,大数据数仓方向,大数据的计算方向。 接下来的4天会输出一份 impala的文档

2018-08-16 09:23:37

阅读数 166

评论数 0

18年专业课考试大纲

803计算机学科基础综合 一、 考查目标 计算机学科基础综合考试涵盖数据结构、计算机组成原理、操作系统和计算机网络等学科专业基础课程。要求考生比较系统地掌握上述专业基础课程的基本概念、基本原理和基本方法,能够综合运用所学的基本原理和基本方法分析、判断和解决有关理论问题和实际问题。 ...

2018-01-27 23:15:08

阅读数 150

评论数 0

canal mysql数据同步到其它数据库(oracle,hbase,redis,mongoDB等)

1.canal是阿里巴巴mysql数据库binlog的增量订阅&消费组件 GitHub 地址 https://github.com/alibaba/canal 下载地址 https://github.com/alibaba/canal/releases 目前最新的是 1.0.25 我...

2018-01-15 09:55:45

阅读数 1729

评论数 1

centos7.3 CDH5.11.2安装

前面是按照centeros 6.5   cms5.3.6 来安装,后面是centos7.3 CDH5.11.2安装与前面不同的地方。 1.目前安装的环境:centeros 6.5   cms5.3.6  cdh5.3.6   本地虚拟机, 3节点(测试环境),主节点需要的内存多点...

2018-01-15 09:51:43

阅读数 553

评论数 0

大数据笔记和学习的一些思考

框架学习方法

2017-12-14 12:01:15

阅读数 118

评论数 0

spark1.3版本源码解读

脚本启动流程1、在主节点启动start-all.sh 调用 start-master.sh 调用 start-daemon.sh org.apache.spark.deploy.master.Master 调用 spark-class (启动后面类的main方法) 2、start-slaves...

2017-12-11 19:47:23

阅读数 173

评论数 0

SparkWordCount源码原理

def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() hadoopFile(p...

2017-12-11 19:40:32

阅读数 113

评论数 0

spark-streaming

SparkStrem是一个可扩展,高吞吐量,实时的流式处理 可以与多个数据源整合 将数据流分批次处理,每个批次就是一个时间段(每隔一段时间处理一次)Dstream将持续性的数据流,分割成一系列RDD,每个RDD含有一段时间内的数据。 是一个离散流,是sparkstreaming的基本数据抽象,由连...

2017-12-11 19:39:19

阅读数 82

评论数 0

sparkRDD

RDDRDD弹性分布式数据集,spark最基本的数据抽象,代表一个不可变,可分区,里面元素可并行计算的集合。 具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。 RDD允许用户在执行多个查询时,显示地将工作集缓存在内存中,后续的查询能重用工作集,这极大提高查询速度 特点:一系列的分区,每一...

2017-12-11 19:37:12

阅读数 1157

评论数 0

spark的一些小项目

sparkwordcountobject SparkWC { def main(args: Array[String]): Unit = { //创建配置信息类,并设置应用的程序名称 //local [2] 本地启用2个线程模拟集群运行任务 //local [*] 本地...

2017-12-11 19:35:53

阅读数 3420

评论数 1

spark源码打包编译步骤

目的是当需要修改spark源码时,项目需要使用自己的编译包硬件环境:centOS6.x 64位系统,安装桌面版 内存4G以上 IDEA-linux版软件环境:JDK Maven Spark源码步骤: 1、解压spark源码包: tar -zxvf spark-1.6.1.tgz -C /us...

2017-12-11 19:34:00

阅读数 451

评论数 0

spark-sql使用

spark-sql spark-sql 在cli端的操作 使用spark-sql编程需要配置jar包 通过反射推断schema 通过structtype指定schema 通过spark-shell从mysql中加载数据 将数据保存到mysql中 hive-on=spark spark-sqlDat...

2017-12-11 19:33:00

阅读数 561

评论数 0

RDD的一些api的用法

RDD API 分为Actor类型与Transformation类型Transformation:延迟加载,并不会直接计算结果,而是记住这些应用到基础数据集上的转换动作。只有在要求返回结果给Driver的动作时(也可以说到actor方法),这些转换才会真正运行,这让spark更加有效率地运行常用的...

2017-12-11 19:31:17

阅读数 314

评论数 0

spark搭建

spark 搭建

2017-12-11 19:29:59

阅读数 58

评论数 0

scala语法

scala语法

2017-12-11 19:26:59

阅读数 120

评论数 0

hadoop java API问题总结一

关于副本数量的问题 副本数由客户端的参数dfs.replication决定(优先级: conf.set >  自定义配置文件 > jar包中的hdfs-default.xml)

2017-09-15 20:21:47

阅读数 78

评论数 0

hadoop 配置文件

/core-site.xml   ****!!!以下单位MB //指定namenode的命名空间 fs.defaultFS hdfs://hadoop01:9000 ...

2017-09-14 19:46:06

阅读数 77

评论数 0

hadoop 搭建集群配置

1.要有个规划,由于是用自己电脑来模拟搭建,因此在以三个节点为例来演示hadoop 的搭建 hadoop01 ip 51  namenode、datanode 、 nodemanager 、resourcemanager、jobhistoryserver hadoop02 ip 52  datan...

2017-09-14 19:16:41

阅读数 90

评论数 0

linux hadoop 安装

下载hadoop文件   hadoop*.tar.gz tar -zxvf  /home/hadoop*.tar.gz  -C /opt/app vi /etc/profile/  配置HADOOP_HOME   HADOOP_HOME=... PATH=$PATH:$JAVA_HOME/...

2017-09-14 17:54:40

阅读数 225

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭