热情散尽-CSDN博客

原创数据仓库建模

1.ODS层1）保持数据原貌不做任何修改，起到备份数据的作用。2）数据采用压缩，减少磁盘存储空间（例如：原始数据100G，可以压缩到10G左右）3）创建分区表，防止后续的全表扫描。2.DWD层DWD层需要构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。维度建模一般按照一下四个步骤：选择业务过程——生命粒度——确认维度——确认事实（1）选择业务过程在业务系统中，挑选我们感兴趣的业务线，比如下单业务，支付业务，退款业务，物流业务，一条业务线对应一个事实表。（2）声明粒度数据粒度指

2020-07-07 21:41:24 547

原创大数据项目之电商数据仓库简介

1.数仓分层1.1为什么要分层ODS：关系建模DWD ：数据清洗，过滤脏数据（去空值，把不符合要求的数据过滤），把数据分类，给某些数据添加必要字段。维度建模DWS需要按照主题建模，主题时一个分析问题的角度，圈定了一个分析的范围，计算出这个主题各种指标，而我们的指标主要都是汇总，在dws里面我们只汇总过去一天的数据。得到以天作为粒度的指标。。DWT ：实际工作中，需要算某个app，过去一天，过去一周，过去一个月，过去一季度，过去一年。。。上线以来的新增用户。ADS：给领导，给产品经理需要各种

2020-07-07 20:48:38 2001 2

原创 Kafka架构深入理解

1.Kafka的工作流程以及文件存储机制Kafka中消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。topic是逻辑上的概念，而partition是物理上的概念，每个partition对应一个log文件，该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到该log文件末端，且每条数据都有自己的offset。消费者组中的每个消费者，都会实时记录自己消费到了那个offset，以便出错恢复时，从上次的位置继续消费。由于生产者产生

2020-07-01 10:33:05 219

原创 Kafka安装部署以及基本操作

1.集群规划假设这里是三台机器test01 test02 test03zk zk zkKafka Kafka Kafka2.jar下载Kafka下载地址：http://kafka.apache.org/downloads.html3.下载完成之后开始解压安装包[hadoop@test01 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/4.修改解压之后的文件名称。（可以修改也可以不修改，修改

2020-06-30 16:13:10 214

原创 Kafka进阶问题

Kafka核心概念？1.Broker一台Kafka服务器就是一个broker。一个集群由多个broker组成。2.TopicTopic就是数据主题，Kafka建议根据业务系统将不同的数据放在不同的Topic中！Kafka中的Topics总是多订阅者模式，一个topic可以拥有一个或者多个消费者来订阅它的数据。一个大的Topic可以分布式存储在多个Kafka broker中。Topic可以类比数据库中的库。3.Partition每个topic可以有多个分区，通过分区的设计，topic可以不断进行扩

2020-06-30 15:32:42 360

原创大数据技术Kafka基础问题

.Kafka的定义？Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据的实时处理领域？Kafka消息队列应用场景使用消息队列的好处？1.解耦允许你独立扩展或者修改俩边的处理过程，只要确保他们遵循同样的接口约束。2.可恢复性系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。3.缓冲–>削峰平谷有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度是不.

2020-06-29 16:52:01 360

原创 MapReduce的Shuffle过程

***mapreduce的工作流程Shuffle机制：Shuffle机制：Map 方法之后Reduce方法之前这段处理过程叫ShuffleMap方法之后，数据首先进入分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；唤醒缓冲区的默认大小为100M，环形缓冲区达到80%时，进行溢写；溢写前对数据进行排序，排序按照对key的索引进行字典顺序排序，排序的手段快排；溢写产生...

2020-03-19 18:23:17 178

原创初始spark

spark 是个大规模的计算引擎 spark-core RDD基本概念弹性分布式数据集（RDD），spark中的基本抽象，表示可以并行操作的不可变的分区元素集合。 5个主要属性1.分区列表（a list partitions)Spark RDD 是被分区的，每一个分区都会被一个计算任务（task)处理，分区数决定了并行计算的数量，RDD的并行度默认从父RDD传给子RDD。...

2019-10-30 16:34:55 134

原创 flume，taildir Source

taildir 特点官方文档http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#multiport-syslog-tcp-source观察指定的文件，一旦检测到添加到每个文件中的新行，就几乎实时跟踪它们。如果正在编写新行，则此源将重试读取它们，等待写入完成。这个源是可靠的，即使拖尾文件旋转，也不会丢失数据。它定...

2019-08-09 18:44:20 526

原创初识flume

flume是什么flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation）,属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94...

2019-08-08 20:22:28 200

转载安装配置高可用Hadoop

首先下载好Hadoop的安装包，并解压1.配置hadoop-env.sh中的java_home修改为自己jdk的路径修改hadoop-env.sh中的java_homeexport JAVA_HOME=/opt/jdk1.8.0_181/2.配置core-site.xml\<property> <n...

2019-07-24 09:11:36 153

原创 hadoop集群测试jar包以及历史命令

使用idea打jar包1.在pom文件的下边将打包插件2.然后impor 下载打jar包依赖3.在以来中指定主类，包名，类名mrTest.dirver4.点开idea右边的maven project , 然后打开Lifecycle.如果已经存在 tartget 文件夹，点击clean清除点击complite 编译点击package 打包打包完后会生成两个jar包一个jar包...

2019-07-18 19:17:19 772

原创 MapReduce词频统计说明

wc词频统计代码：由三个阶段组成：1）Mapper阶段（1）用户自定义的Mapper要继承自己的父类 Mapper（2）Mapper的输入数据是KV对的形式（KV的类型可自定义）（3）Mapper中的业务逻辑写在map()方法中（4）Mapper的输出数据是KV对的形式（KV的类型可自定义）（5）map()方法（maptask进程）对每一个<K,V>调用一次2）Redu...

2019-07-18 16:26:55 1431

原创 HDFS客户端操作

首先创建连接1.将本地的文件上传到hdfs上将hdfs的文件上传到本地创建目录mkdir() 可以创建目录mkdirs()可以创建多级目录删除重命名列出文件详细信息判断为文件或为文件夹...

2019-07-11 21:19:44 151

原创 Hadoop伪分布式安装

1.上传Hadoop压缩包，解压到/opt下解压完成为：2.进入./hadoop-2.7.2/etc/hadoop/编辑 hadoop-env.sh core-site.xmlhdfs-site.xml mapred-site.xml yarn-site.xml编辑slaves3.编辑hadoop-env.sh 配置自己jdk路径编辑 core-site .x...

2019-07-10 10:20:42 240

转载 Linux中安装MySQL

在Linux中安装MySQL1.编辑版本下载地址vim /etc/yum.repos.d/mysql-community.repo[mysql-connectors-community]name=MySQL Connectors Communitybaseurl=http://repo.mysql.com/yum/mysql-connectors-community/el/6/$base...

2019-07-08 16:45:27 117

转载在Linux中安装jdk

在Java官方下载jdk通过rz 上传下载好的压缩包通过yum install -y lrzsz 命令下载命令3.通过rz 上传jdk压缩包4.配置环境变量vi /etc/profileexport JAVA_HOME=/opt/jdk1.8.0_181/export JRE_HOME=JAVAHOME/jreexportCLASSPATH=.:{JAVA_HOME}/jr...

2019-07-08 16:28:34 125

原创 Linux常用命令

Linux常用命令 1.目录结构2. 常用的命令1.目录结构/ 最顶级目录，所有的东西都在/目录下bin 可执行文件，可以被root和一般用户使用的指令，也就是常用命令dev 外接设备etc 配置文件home 普通用户家目录lib 二进制文件，如支持命令的库mnt 挂载文件系统的目录proc 存放一些执行的进程的信息root 超级用户的家目录~sbin 超级用户使用的命令tm...

2019-07-02 19:45:52 128

JiGmin的博客