bigdata
bigdata
henry.zhu
关注数据库及相关的大数据&云计算领域
展开
-
大数据系列八:Flink实时流计算-时间窗口(Kafka to MySQL)
一.前言二.概念三.程序四.运行原创 2020-06-26 19:47:33 · 1207 阅读 · 0 评论 -
大数据系列七:Storm实时流计算-滑动窗口(Kafka to File)
一.前言Storm安装配置没有使用Hadoop,比较简单,网络相关介绍比较多,大概列下。二.安装配置2.1 tar -zxvf apache-storm-1.0.5.tar.gz2.2 vi /etc/profileSTORM_HOME=/mnt/data/software/stormPATH=PATH:PATH:PATH:STORM_HOME/bin2.3 vi storm.yamlstorm.zookeeper.servers:- “ipsnode1”- “ipsnode2”- “原创 2020-06-26 18:58:37 · 547 阅读 · 0 评论 -
大数据系列六:Spark实时流计算-滑动窗口(sliding window)
一.前言为什么会有流计算?因为有流^_^为什么会有流?这个原因比较复杂,部分是因为RDBMS解决不了,部分是为了解耦,部分是因为数据价值密度太低…,部分是因为架构^_^二.概念窗口:指定了时间长度和延时长度的时间段(长度也就是时间),比如:长度是5分钟,并且允许有1分钟的延迟。窗口的创建时间:第一个元素到达就创建。窗口的销毁时间:在窗口时间长度+延时长度到时。每个窗口都会绑定一个触发器和一个执行函数,触发器定义了何时会触发窗口的执行函数的计算,比如水位经过了窗口结束时间的时候窗口产生的目原创 2020-06-26 17:27:03 · 1597 阅读 · 0 评论 -
大数据系列五:Hive
一.前言Hive是建立在Hadoop之上的数据仓库,由Facebook开发,现在是apache顶级开源项目;它依赖于HDFS存储数据,依赖MR处理数据;不完全支持SQL标准,其事务支持,索引,子查询和连接操作也存在很多限制,新版本已经支持update,但效率不高;Hive主要由三个模块:1.用户接口模块,含CLI、HWI、JDBC、Thrift Server 。2.驱动模块(Driver),含编译器、优化器、执行器等 。3.元数据存储模块(Metastore),是一个独立的关系型数据库,通常与M原创 2020-06-26 16:24:55 · 2220 阅读 · 0 评论 -
大数据系列三:Hadoop HA+Federation(联邦)
一.前言为什么需要Federation(联邦)?HA虽然提供了两个名称节点,解决了单点故障问题,但某时刻只有一个是活动状态,并没有解决可扩展性,系统性能,隔离性问题。Federation(联邦)设计了多个相互独立的名称节点,使命名服务能水平扩展,这些节点分别进行各自命名空间和块管理,相互之间是联邦关系,不需要相互协调,降低了复杂性。Federation(联邦)的核心可以说是viewfs,这个技术像什么呢!通俗点讲,和nfs挂载有点类似,如下图hdfs提供了统一的挂载点app&doc,其背后对原创 2020-06-25 17:46:58 · 829 阅读 · 0 评论 -
大数据系列二:Hadoop HA
一.前言Hadoop HA主要解决HDFS NameCode&YARN ResourceManager单点故障问题,通过引入备用资源,在主资源发生故障时通过zk切换到备用资源。二.配置2.1 HDFS HA注意:主备切换主要依赖两项配置:1.能相互免密登录2.dfs.ha.fencing.methods2.1.1 vi hadoop-env.sh##################added for HDFS haexport HDFS_JOURNALNODE_USER=root原创 2020-06-25 16:59:31 · 286 阅读 · 0 评论 -
大数据系列四:HBase
一.前言HBASE是KEYVALUE存储,面向列的多版本映射分布式数据库。HBASE架构简图如下:不多介绍,对于非结构化数据,现在有很多解决方案,HBASE除非历史遗留,一般不会是最适合的那个,适当了解即可。二.安装配置1.zookeeper1.1 vi /etc/profile in all zk nodes#########################export ZOOKEEPER_HOME=/usr/local/zookeeper-3.6.0/export PATH=$PAT原创 2020-06-25 18:06:44 · 202 阅读 · 0 评论 -
大数据系列一:Hadoop安装&配置&基本测试
一.前言趁这几天放假,把以前大数据学习笔记梳理下,复习&整合下知识点,包含hadoop系列,流计算框架,ELK Stack等;大数据的笔记相对完整些,开源词法&语法分析工具ANTLR4本来想分享一个系列,无奈笔记太零散了,代码又比较多,实在没精力整合;希望这个系列能完成。二.基础配置2.1.OS准备3台centos/rhel7服务器,虚机/实体机都可以,OS默认安装即可。IP&HOSTNAME:192.168.100.101 ipsnode1192.168.100.102原创 2020-06-25 12:07:46 · 639 阅读 · 0 评论 -
Oracle数据迁移至ClickHouse(一):datax
一.前言ClickHouse是andex在2016年6月15日开源了一个数据分析的数据库,国内一些大厂也在使用:今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右,大多数查询相应时间在几秒钟。腾讯内部用ClickHouse做游戏数据分析,并且为之建立了一整套监控运维体系。携程内部...原创 2020-04-10 10:56:58 · 8562 阅读 · 6 评论 -
Oracle数据迁移至ClickHouse(二):flume
一.前言最近研究flume时发现,网络上的资料多少都有些问题,针对clickhouse引用最多的flume sink是:https://reviews.apache.org/r/50692/diff/1#2,这个源码的pom.xml是存在问题的,根本无法编译;其次clickhouse官网的jdbc驱动效率不高,鉴于此,我利用官网推荐的第三方jdbc重新写了一版flume sink,相关过程见下文。二.数据库环境准备oracle:create table tdba_test( TID原创 2020-06-22 11:25:12 · 2048 阅读 · 1 评论