- 博客(22)
- 收藏
- 关注
原创 离线数据仓库项目
离线数据仓库项目:需求来自二个方面流量域需求:业务域需求:整体方案:数据收集:主要收集了用户行为数据和业务数据用户行为数据1,日志前端埋点,生成日志数据2,数据采集3,kafka缓存4,Flume采集落地hdfs5,日志预处理6,落hive数仓明细层业务数据1,业务系统增删改数据库,形成数据2,Sqoop/DataX数据抽取3,落hive数仓明细层4,增量合并处理数据仓库A.项目中主要涉及技术:数据采集:FLUME存储平台:HDFS基础设施:HIVE运算引擎:S
2020-08-17 21:02:27 775
原创 数据治理-Atlas元数据管理 基础介绍及使用
数据治理-Atlas元数据管理数据资产的管理系统(数仓元数据管理系统)atlas 的底层存储 :janusGraph 图数据库 --(依赖于hbase 和 solr)atlas的核心功能层: core --相当于javaee里面的service层atlas对外提供服务的一层:integration(api层) --相当于javaee里面的 controller层外界要将元数据 录入(注入)到 atlas中去,通过kafka进行对接核心组件1 CoreAtlas 使用 JanusGr
2020-08-15 21:32:19 2036
原创 Flume 深入理解02 案例 串联 可靠性 拦截器 avro taildir kafka Interceptor timestamp static Host UUID 拦截器加密 多路选择案例
Flume1.9.0启动报错信息
2020-07-29 17:56:25 758
原创 Flume 简介01 作用 核心概念 事务机制 安装 配置入门实战
Flume1.业务系统为什么会产生用户行为日志,怎么产生的用户行文日志:每一次访问的行为(访问、搜索)产生的日志记录用户行为日志的目的:1.商家会精准的给你呈现符合你的个人界面2.商家会给你个人添加用户标签,更加精准的分析埋点等2.flume用来做什么的(采集传输数据的,分布式的,可靠的)Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务。是一个数据采集工具,可以从各种各样的数据源上采集数据传输到大数据生态的各
2020-07-28 00:18:19 264
原创 Spark基础03 RDD算子02 转换算子案例 distinct groupByKey flatMap sortByKey join mapValues reduce fold
RDDdistinct 全局去重 改变分区/**distinct 去除重复数据是一个转换算子全局去重 改变分区*/object DistinctDemo {def main(args: Array[String]): Unit = {val sc: SparkContext = SparkUtils.getSparkContextval seq = Seq(1, 2, 4, 5, 66, 66, 6, 5, 77, 77)//转换成RDDval rdd: RDD[Int]
2020-07-26 23:13:26 205
原创 Spark基础02 RDD算子01 转换算子 行动算子 分区数 三种RDD创建方式 控制台打印日志 map filter reduceByKey collect take
RDD触发Action就会生成spark jobRDD的全称为Resilient Distributed Dataset,是一个弹性、可复原的分布式数据集是Spark中最基本的抽象,是一个不可变的、有多个分区的、可以并行计算的集合。RDD中并不装真正要计算的数据,而装的是描述信息,描述以后从哪里读取数据,调用了用什么方法,传入了什么函数,以及依赖关系等。RDD特点有一些列连续的分区:分区编号从0开始,分区的数量决定了对应阶段Task的并行度 有一个函数作用在每个输入切片上: 每一个分区都会生成
2020-07-26 17:09:33 289
原创 Spark基础01 简介 框架体系 安装部署 spark-shell使用 scala,Java,Lambda分别编写WordCount 打包运行 Debug运行
spark简介快速、通用、可扩展的大数据分析引擎(Java, Scala, Python, R and sql)既可以做离线计算,也可以做实时计算提供了统一的大数据处理解决方案可以运行在各种资源调度框架和读写多种数据源支持的多种部署方案丰富的数据源支持。1.MR只能做离线计算,如果实现复杂计算逻辑,一个MR搞不定,就需要将多个MR按照先后顺序连成一串,一个MR计算完成后会将计算结果写入到HDFS中,下一个MR将上一个MR的输出作为输入,这样就要频繁读写HDFS,网络IO和磁盘IO会成为性
2020-07-07 01:50:13 309 1
原创 linux 命令 前缀查找 补全历史命令 修改历史记录条数
修改历史记录条数vi /etc/profileHOSTNAME=/bin/hostname 2>/dev/nullHISTSIZE=3000if [ “$HISTCONTROL” = “ignorespace” ] ; thenexport HISTCONTROL=ignorebothelseexport HISTCONTROL=ignoredupsfiexport PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROLsource
2020-07-03 17:58:48 844
原创 Redis 初窥 安装启动 shell java api使用
redisNosql是为了解决高并发,高扩展,高写入而产生的数据库解决方案是关系型数据库的良好补充,而不能替代关系型数据库Redis是用C语言开发的高性能的键值对存储的Nosql数据库。redis是一个内存nosql数据库redis中也是存储key-value形式的数据redis中的key-value相比hbase等数据库来说,redis的value比较强大,它的value可以不仅仅是一个byte[]redis的value可以有结构:可以是一个list,也可以是一个hash,也可以是set…
2020-07-03 17:21:27 183
原创 scala基础(2) 匿名函数 排序 元组 ArrayBuffer ListBuffer Set Map WordCount的步骤和思路
scala shell匿名函数简写arr.map(x => x * 10)arr.map(_ * 10)arr.filter(x => x% 2 ==0)arr.filter( _ % 2 == 0)arr.reduce((x, y) => x + y)arr.reduce(_ + _)将方法转成一个新的函数def m(x: Int) :Int = x * xval f = m _f函数会调用m方法object MethodToFunc { def main(
2020-06-24 23:31:47 816
原创 Scala 基础(1) 简介 安装 变量定义 条件表达式 for循环 方法 函数 数组定义 数组常用方法 filter map reduce
Scaladay01scala 是一种多范式编程语言 初衷是集成面向对象编程和函数式编程的各种特效运行与java平台(虚拟机) 兼容现有的java程序速度快 能融合到Hadoop生态圈scala 安装编写第一个scala程序object Test{def main(args: Array[String]): Unit = {println(“hello scala, i love you very much”)}}编译运行scalac HelloWorld.scalascala
2020-06-24 01:03:33 173
原创 Hive 数仓工具(5) 行转列 列转行 字符串拼接 窗口函数 数字编号函数 案例
行转列函数实现字符串拼接 concat() concat_ws(参数1(分隔符), str1, str2) 可指定分隔符select concat(“haha”, “–”, “ll”, “–”, “tom”);select concat(ename) from tb_emp; (函数是每行执行一次)select concat(ename, “:”, job) from tb_emp;select concat_ws ("_", “tom”, “cate”, “jim”)cast(变量 AS
2020-06-23 23:10:42 686
原创 Hive 数仓工具(4) 动态分区 分桶表 排序(分区,分桶) case when if show functions with 语法 集合数据类型 窗口函数 案例
动态分区按照某个字段的值的内容将数据分文件夹管理 方便按照这个维度查询1数据 2建表 3导入数据 4创建分区表 5开始动态设置 6向动态分区表中导入数据0数据cd /hive/datavi user.txtu001 zss 23 M beijiingu002 yhh 23 M nanjingu003 lss 43 M beijiingu004 zy 23 M beijiingu005 zm 23 M beijiingu006 cl 23 M dongjingu007 lx 23 M
2020-06-21 23:17:37 372
原创 Hive 数仓工具(3) 插入加载导入导出数据 分区表操作 表的修改操作 查询 对null处理 基础语法 关联查询 二级分区 where group by having order limit
编程 -->数据 + 运算(JAVA SQL)hive:数据查看工具,不是数据库 服务(HQL -->MR)核心组件数据(结构,位置) -->hdfs表(结构 数据类型) 元数据 -->mysql插入数据 insert方式1建表2插入数据每次insert会在hdfs中生成一个小文件insert into tb_xxxx values(1,“zss”) insert into tb_xxx values(1, “lss”),(2,“ls”)…;将后面的selec
2020-06-21 21:17:08 307
原创 Hive 数仓工具(2) 启动 连接 数据库操作 hive数据类型 建表语法 数据导入 内部表 外部表
8启动hivebin/hiveshow databases;create database db_xxxx;create table a(id int, name string);show tables;9第二种连接方式 (hiveserver2服务:beeline JDBC连接)1)hiveserver2 & -->netstat -nltp |grep 100002)beeline!connect jdbc:hive2://linux201:10000root(当前用户
2020-06-20 20:29:46 384
原创 Hive 数仓工具(1) DataWareHours 基础 原理 安装 配置
数据仓库 DW Data WareHoursHIVE是一个数仓工具,用来数据提取,转化,加载,是一种可以存储,查询和分析存储在hadoop中的大规模数据的机制hive数据仓库工具能够将结构化的数据文件映射成数据库表,并提供sql查询功能,能够将SQL语句转变成MapReduce任务来执行 处理HDFS中结构化的静态数据 通过MapReduce程序在YARN(分布式资源调度平台和任务划分平台)平台上处理,一般将处理的结果放到HDFS上(开发成本高,周期长)Hive SQL-->...
2020-06-19 01:27:39 323
原创 hbase 原理 02
Admin对象中的方法负载均衡快照合并小合并大合并拆分刷写读写数据流程数据存储原理rowkey的设计热点问题过滤器整合MR程序协处理器HDFS安全模式导致hbasse不可用hdfs dfsadmin -safemode enterhdfs dfsadmin -safemode leave负载均衡region可手动 拆分split “tb_balance” , “r002”region 下线unassign “” 下线assign 上线assign “” 上线
2020-06-18 15:59:32 176
原创 Hbase的java客户端 基础代码 pom.xml 连接hbase 对名称空间操作 对表操作 增删查改
Hbase的Utils工具类代码import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.TableName; import org.apache.hadoo
2020-06-14 13:12:23 626 1
原创 电脑双屏恢复单屏后,软件界面显示消失无法调出 idea
解决方法1:启动软件,不要点击其他地方Alt+空格,在按M键控制移动。按一下方向键,比如右直到软件界面显示在窗口中。移动鼠标。即可解决方法2:打开应用以后,随便打开另一个一个应用拖动这个可显示的应用到屏幕边缘,应用拓展成半张屏幕这时选择屏幕上无法显示的应用就可以显示出来了...
2020-06-14 08:35:09 4255 1
原创 HBASE简介及命令及原理(1) --(shell 命令,DML DDL 如建表,清空表,增删改查)
HBASE 分布式数据库 CRUD集群存储 ==>数据量大 高并发MYSQL 存储数据 CRUD单节点 ==>数据量有限 并发有限简介:hbase是一个 列式存储的分布式数据库1mysql 存储结构化数据 当数据的条数达到亿级别 查询 存储遇到瓶颈2mysql 并发量比较打 单台机器的处理能力有限 导致效率低下HBASE 分布式的数据库 分布式储存 横向扩展(存储 运算)数据可以是结构化的 也可以是非结构化的1行和行的字段可以不一致2行的属性个数没有限制 百万列 一列3表
2020-06-13 01:21:10 346
原创 ZooKeeper基础(1) 启动 连接 zookeeper 创建 删除 设置 获取 监控(节点 data 变化) 服务器上下线动态感知
ZooKeeper启动./ZKServer start stop status 启动 关闭 状态./ZKCli.sh -server linux201:2181,linux202:2181,linux203:2181 shell客户端连接ZK命令ls / 查看/下信息get /a 得到/a的值set /a 设置/a的值delete /a 删除空节点rmr /a 删除节点(空或不空)create -s -e /hh hh 创建/hh有序临时节点 -s(有序) -e(临时)临时节点在客户端
2020-06-10 15:45:58 464
原创 ZooKeeper NullPointerException 空指针异常导致 zk无法传到其他class里面去
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入public class NameNode { ZooKeeper zk = null; public v
2020-06-09 23:29:20 1017
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人