2020年10月_x我有辣条跟我走。

原创数据仓库的分层

数仓为什么要分层？1.把复杂问题简单化把复杂的任务分解成多层来完成，每一层只处理简单的任务，方便定位。2.减少重复开发规范数据分层，通过中间层数据，能够减少极大的重复计算，增加一次结果的重复性3.隔离原始数据不论是数据的异常还是数据的敏感性，使真实数据与统计数据解耦开。数据仓库分层：ODS层:原始数据层，存放原始数据，直接加载原始日志，数据保持原貌不做处理。DWD层：对ODS层数据进行清洗（去空值，脏数据，超过极限范围的数据），维度退化（小表和成大表），脱敏（手机...

2020-10-29 20:35:38 1169

原创数据仓库的同步策略

目录同步策略四种表20张表分别属于什么分区策略数据的同步主要得益于：数据仓库的同步策略，它的同步策略有四种。同步策略全量同步策略：每日全量，导入完整数据到hive的分区表，就是每天存储一份完整数据，作为一个分区。适用于表数据量不大，且每日都有新数据插入，也会有旧数据修改的场景。例如：编码字典表，且每天即会有数据插入，也会有旧数据的修改的场景。增量同步策略：每日增量，就是每天存储一份增量数据，作为一个分区。适用于数据量大，且每天只会有新数据插入的场景。例如：退单表

2020-10-28 20:06:59 1265

原创 Kafka数据可靠性保证及分区分配策略

1

2020-10-24 08:27:44 317

原创大数据面试题汇总（含数仓）

10月22日1.zookeeper中尽可能多的创建节点好吗？每个节点都会存储东西，如果太多节点就会使它的它的性能不好。2.zookeeper的一个节点上默认存储多少的数据？3.在你接触的项目里面，你的zookeeper在哪些地方使用了？hadoop 的HA，其他的一些HA场景Kafka ，hbase，spark streaming与kafka整合还有一些场景：配置文件管理（例），负载均衡，动态上下线...4.zookeeper是怎样进行监听的？某...

2020-10-23 17:46:51 940

原创 zookeeper的一致性配置管理

参考：https://blog.csdn.net/u013468915/article/details/80955110配置：public class CommonConfig implements Serializable{ // 数据库连接配置 private String dbUrl; private String username; private String password; private String driverClass; public Co.

2020-10-23 16:57:44 192

原创 Flume的拦截器原理及其配置

配置：file-flume-kafka.confflume中主要用到的就是配置文件com.bigdata.flume.interceptor.LogETLInterceptor和com.bigdata.flume.interceptor.LogTypeInterceptor是自定义的拦截器的全类名。需要根据用户自定义的拦截器做相应修改。拦截器：它的里面有两个自定义的拦截器，一个是数据清洗的拦截器，一个是日志类型的拦截器。拦截器就相当于map,有kv值。key :就是头，给他个名字叫做.

2020-10-23 11:44:37 868

原创 Zookeeper总结图

2020-10-22 17:39:08 127

原创 java面试题及答案

面向对象编程（OOP）Java 是一个支持并发、基于类和面向对象的计算机编程语言。下面列出了面向对象软件开发的优点：代码开发模块化，更易维护和修改。代码复用。增强代码的可靠性和灵活性。增加代码的可理解性。面向对象编程有很多重要的特性，比如：封装，继承，多态和抽象。下面的章节我们会逐个分析这些特性。封装封装给对象提供了隐藏内部特性和行为的能力。对象提供一些能被其他对象访问的方法来改变它内部的数据。在 Java 当中，有 3 种修饰符：public，private 和 prot.

2020-10-22 17:33:24 2868

原创 Hadoop中hdfs小文件处理

假如有128G的小文件，那么它会有多少字节那？一个小文件：占用namenode多大内存150字节；128 * 1024*1024*1024byte/150字节 = 9亿文件块（1KB（Kilobyte，千字节）=1024B= 2^10 B；1MB（Megabyte，兆字节，百万字节，简称“兆”）=1024KB= 2^20 B；1GB（Gigabyte，吉字节，十亿字2113节，又称“千兆”）=1024MB= 2^30 B。）怎么解决呢？（1）采用har归档方式，将小文件归档我们...

2020-10-20 18:22:35 759

原创线程池

转自：创天创世纪目录线程池的概念：四种常见的线程池详解：缓冲队列BlockingQueue和自定义线程池ThreadPoolExecutor线程池的概念：线程池就是首先创建一些线程，它们的集合称为线程池。使用线程池可以很好地提高性能，线程池在系统启动时即创建大量空闲的线程，程序将一个任务传给线程池，线程池就会启动一条线程来执行这个任务，执行结束以后，该线程并不会死亡，而是再次返回线程池中成为空闲状态，等待执行下一个任务。2. 线程池的工作机制 ...

2020-10-20 17:16:43 72

原创 lockback的使用

转载于：java风云目录logback简介logback配置介绍logback.xml配置详解logback简介logback是由log4j的创始人开发的新日志框架，包括三个模块：logback-core logback-classic logback-accesslogback-core是核心模块，logback-classic是日志框架，相当于log4j，logback很好的实现了slf4j，logback-access提供跟web 容器有关的日志访问功能。logb

2020-10-20 16:47:48 1060

原创大白话--java中同步异步，并行并发，线程安全不安全的区别

同步与异步的区别：举个例子：同步：就相当于起床，要先穿衣服，再穿鞋，再洗漱；是按一定顺序的，你做一件事的时候就不能做另一件事。异步：就相当于你吃饭和看电视这两件事情是可以一起进行的，能够节约时间，提高效率。概念：同步：当客户端发送请求给服务端，在等待服务端响应的请求时，客户端不做其他的事情。当服务端做完了才返回到客户端。这样的话客户端需要一直等待。用户使用起来会有不友好。异步：当客户端发送给服务端请求时，在等待服务端响应的时候，客户端可以做其他的事情，这样节约了时间，提高了效率。存

2020-10-20 12:22:45 1416 1

原创电商项目

前言：数据库和数据仓库一组图片来更快的理解：https://blog.csdn.net/bjweimengshu/article/details/79256504数据库：是按照数据结构来组织存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期存储在计算机内，有组织的，可共享的数据集合。数据库中的数据指的是以一定的数据模型组织，描述和存储在一起，尽可能小的冗余，较高的数据独立性和数据易扩展性的特点并且可以在一定的范围内为多个用户共享。常用的数据库有Oracle，Mysql和SQLserv

2020-10-17 16:54:18 232

原创 Spark考试题总结

一.选择判断1.单选下面哪个不是 RDD 的特点 ( )A.可分区 B.可序列化 C.可修改 D.可持久化关于累加器，下面哪个是错误的 ( )A.支持加法B.支持数值类型C.可并行D.不支持自定义类型Scala语言中，以下说法正确的是（）A.常量和变量都可以不用赋初始值B.常量需要赋初始值，变量可以不用赋初始值C.常量和变量都需要赋初始值D.常量不需要赋初始值，变量必须赋初始值下面对MapReduce描述错误的是( )A. 适合离线批处理 B. 具有很好的容...

2020-10-12 17:27:03 25662 4

XIAOMO__的博客