湖中屋-CSDN博客

原创离线数据仓库项目

离线数据仓库项目:需求来自二个方面流量域需求:业务域需求:整体方案:数据收集:主要收集了用户行为数据和业务数据用户行为数据1，日志前端埋点，生成日志数据2，数据采集3，kafka缓存4，Flume采集落地hdfs5，日志预处理6，落hive数仓明细层业务数据1，业务系统增删改数据库，形成数据2，Sqoop/DataX数据抽取3，落hive数仓明细层4，增量合并处理数据仓库A.项目中主要涉及技术:数据采集：FLUME存储平台：HDFS基础设施：HIVE运算引擎：S

2020-08-17 21:02:27 813

原创数据治理-Atlas元数据管理基础介绍及使用

数据治理-Atlas元数据管理数据资产的管理系统（数仓元数据管理系统）atlas 的底层存储：janusGraph 图数据库 --（依赖于hbase 和 solr）atlas的核心功能层： core --相当于javaee里面的service层atlas对外提供服务的一层：integration（api层） --相当于javaee里面的 controller层外界要将元数据录入（注入）到 atlas中去，通过kafka进行对接核心组件1 CoreAtlas 使用 JanusGr

2020-08-15 21:32:19 2077

原创 Flume 深入理解02 案例串联可靠性拦截器 avro taildir kafka Interceptor timestamp static Host UUID 拦截器加密多路选择案例

Flume1.9.0启动报错信息

2020-07-29 17:56:25 796

原创 Flume 简介01 作用核心概念事务机制安装配置入门实战

Flume1.业务系统为什么会产生用户行为日志，怎么产生的用户行文日志：每一次访问的行为（访问、搜索）产生的日志记录用户行为日志的目的：1.商家会精准的给你呈现符合你的个人界面2.商家会给你个人添加用户标签，更加精准的分析埋点等2.flume用来做什么的（采集传输数据的，分布式的，可靠的）Apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务。是一个数据采集工具,可以从各种各样的数据源上采集数据传输到大数据生态的各

2020-07-28 00:18:19 298

原创 Spark基础03 RDD算子02 转换算子案例 distinct groupByKey flatMap sortByKey join mapValues reduce fold

RDDdistinct 全局去重改变分区/**distinct 去除重复数据是一个转换算子全局去重改变分区*/object DistinctDemo {def main(args: Array[String]): Unit = {val sc: SparkContext = SparkUtils.getSparkContextval seq = Seq(1, 2, 4, 5, 66, 66, 6, 5, 77, 77)//转换成RDDval rdd: RDD[Int]

2020-07-26 23:13:26 231

原创 Spark基础02 RDD算子01 转换算子行动算子分区数三种RDD创建方式控制台打印日志 map filter reduceByKey collect take

RDD触发Action就会生成spark jobRDD的全称为Resilient Distributed Dataset，是一个弹性、可复原的分布式数据集是Spark中最基本的抽象，是一个不可变的、有多个分区的、可以并行计算的集合。RDD中并不装真正要计算的数据，而装的是描述信息，描述以后从哪里读取数据，调用了用什么方法，传入了什么函数，以及依赖关系等。RDD特点有一些列连续的分区：分区编号从0开始，分区的数量决定了对应阶段Task的并行度 有一个函数作用在每个输入切片上: 每一个分区都会生成

2020-07-26 17:09:33 320

原创 Spark基础01 简介框架体系安装部署 spark-shell使用 scala,Java,Lambda分别编写WordCount 打包运行 Debug运行

spark简介快速、通用、可扩展的大数据分析引擎(Java, Scala, Python, R and sql)既可以做离线计算,也可以做实时计算提供了统一的大数据处理解决方案可以运行在各种资源调度框架和读写多种数据源支持的多种部署方案丰富的数据源支持。1.MR只能做离线计算，如果实现复杂计算逻辑，一个MR搞不定，就需要将多个MR按照先后顺序连成一串，一个MR计算完成后会将计算结果写入到HDFS中，下一个MR将上一个MR的输出作为输入，这样就要频繁读写HDFS，网络IO和磁盘IO会成为性

2020-07-07 01:50:13 337 1

原创 linux 命令前缀查找补全历史命令修改历史记录条数

修改历史记录条数vi /etc/profileHOSTNAME=/bin/hostname 2>/dev/nullHISTSIZE=3000if [ “$HISTCONTROL” = “ignorespace” ] ; thenexport HISTCONTROL=ignorebothelseexport HISTCONTROL=ignoredupsfiexport PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROLsource

2020-07-03 17:58:48 887

原创 Redis 初窥安装启动 shell java api使用

redisNosql是为了解决高并发,高扩展,高写入而产生的数据库解决方案是关系型数据库的良好补充,而不能替代关系型数据库Redis是用C语言开发的高性能的键值对存储的Nosql数据库。redis是一个内存nosql数据库redis中也是存储key-value形式的数据redis中的key-value相比hbase等数据库来说，redis的value比较强大，它的value可以不仅仅是一个byte[]redis的value可以有结构：可以是一个list，也可以是一个hash，也可以是set…

2020-07-03 17:21:27 204

原创 scala基础(2) 匿名函数排序元组 ArrayBuffer ListBuffer Set Map WordCount的步骤和思路

scala shell匿名函数简写arr.map(x => x * 10)arr.map(_ * 10)arr.filter(x => x% 2 ==0)arr.filter( _ % 2 == 0)arr.reduce((x, y) => x + y)arr.reduce(_ + _)将方法转成一个新的函数def m(x: Int) :Int = x * xval f = m _f函数会调用m方法object MethodToFunc { def main(

2020-06-24 23:31:47 854

原创 Scala 基础(1) 简介安装变量定义条件表达式 for循环方法函数数组定义数组常用方法 filter map reduce

Scaladay01scala 是一种多范式编程语言初衷是集成面向对象编程和函数式编程的各种特效运行与java平台(虚拟机) 兼容现有的java程序速度快能融合到Hadoop生态圈scala 安装编写第一个scala程序object Test{def main(args: Array[String]): Unit = {println(“hello scala, i love you very much”)}}编译运行scalac HelloWorld.scalascala

2020-06-24 01:03:33 196

原创 Hive 数仓工具(5) 行转列列转行字符串拼接窗口函数数字编号函数案例

行转列函数实现字符串拼接 concat() concat_ws(参数1(分隔符), str1, str2) 可指定分隔符select concat(“haha”, “–”, “ll”, “–”, “tom”);select concat(ename) from tb_emp; (函数是每行执行一次)select concat(ename, “:”, job) from tb_emp;select concat_ws ("_", “tom”, “cate”, “jim”)cast(变量 AS

2020-06-23 23:10:42 715

原创 Hive 数仓工具(4) 动态分区分桶表排序(分区,分桶) case when if show functions with 语法集合数据类型窗口函数案例

动态分区按照某个字段的值的内容将数据分文件夹管理方便按照这个维度查询1数据 2建表 3导入数据 4创建分区表 5开始动态设置 6向动态分区表中导入数据0数据cd /hive/datavi user.txtu001 zss 23 M beijiingu002 yhh 23 M nanjingu003 lss 43 M beijiingu004 zy 23 M beijiingu005 zm 23 M beijiingu006 cl 23 M dongjingu007 lx 23 M

2020-06-21 23:17:37 404

原创 Hive 数仓工具(3) 插入加载导入导出数据分区表操作表的修改操作查询对null处理基础语法关联查询二级分区 where group by having order limit

编程 -->数据 + 运算(JAVA SQL)hive:数据查看工具,不是数据库服务(HQL -->MR)核心组件数据(结构,位置) -->hdfs表(结构数据类型) 元数据 -->mysql插入数据 insert方式1建表2插入数据每次insert会在hdfs中生成一个小文件insert into tb_xxxx values(1,“zss”) insert into tb_xxx values(1, “lss”),(2,“ls”)…;将后面的selec

2020-06-21 21:17:08 331

原创 Hive 数仓工具(2) 启动连接数据库操作 hive数据类型建表语法数据导入内部表外部表

8启动hivebin/hiveshow databases;create database db_xxxx;create table a(id int, name string);show tables;9第二种连接方式 (hiveserver2服务:beeline JDBC连接)1)hiveserver2 & -->netstat -nltp |grep 100002)beeline!connect jdbc:hive2://linux201:10000root(当前用户

2020-06-20 20:29:46 414

原创 Hive 数仓工具(1) DataWareHours 基础原理安装配置

数据仓库 DW Data WareHoursHIVE是一个数仓工具,用来数据提取,转化,加载,是一种可以存储,查询和分析存储在hadoop中的大规模数据的机制hive数据仓库工具能够将结构化的数据文件映射成数据库表,并提供sql查询功能,能够将SQL语句转变成MapReduce任务来执行处理HDFS中结构化的静态数据通过MapReduce程序在YARN(分布式资源调度平台和任务划分平台)平台上处理,一般将处理的结果放到HDFS上(开发成本高,周期长)Hive SQL-->...

2020-06-19 01:27:39 347

原创 hbase 原理 02

Admin对象中的方法负载均衡快照合并小合并大合并拆分刷写读写数据流程数据存储原理rowkey的设计热点问题过滤器整合MR程序协处理器HDFS安全模式导致hbasse不可用hdfs dfsadmin -safemode enterhdfs dfsadmin -safemode leave负载均衡region可手动拆分split “tb_balance” , “r002”region 下线unassign “” 下线assign 上线assign “” 上线

2020-06-18 15:59:32 194

原创 Hbase的java客户端基础代码 pom.xml 连接hbase 对名称空间操作对表操作增删查改

Hbase的Utils工具类代码import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.TableName; import org.apache.hadoo

2020-06-14 13:12:23 701 1

湖中屋的博客