![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
热情散尽
这个作者很懒,什么都没留下…
展开
-
数据仓库建模
1.ODS层1)保持数据原貌不做任何修改,起到备份数据的作用。2)数据采用压缩,减少磁盘存储空间(例如:原始数据100G,可以压缩到10G左右)3)创建分区表,防止后续的全表扫描。2.DWD层DWD层需要构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。维度建模一般按照一下四个步骤:选择业务过程——生命粒度——确认维度——确认事实(1)选择业务过程在业务系统中,挑选我们感兴趣的业务线,比如下单业务,支付业务,退款业务,物流业务,一条业务线对应一个事实表。(2)声明粒度数据粒度指原创 2020-07-07 21:41:24 · 530 阅读 · 0 评论 -
大数据项目之电商数据仓库简介
1.数仓分层1.1为什么要分层ODS:关系建模DWD :数据清洗,过滤脏数据(去空值,把不符合要求的数据过滤),把数据分类,给某些数据添加必要字段。维度建模DWS需要按照主题建模,主题时一个分析问题的角度,圈定了一个分析的范围,计算出这个主题各种指标,而我们的指标主要都是汇总,在dws里面我们只汇总过去一天的数据。得到以天作为粒度的指标。。DWT :实际工作中,需要算某个app,过去一天,过去一周,过去一个月,过去一季度,过去一年。。。上线以来的新增用户。ADS:给领导,给产品经理需要各种原创 2020-07-07 20:48:38 · 1978 阅读 · 2 评论 -
初始spark
spark 是个大规模的计算引擎 spark-core RDD基本概念 弹性分布式数据集(RDD),spark中的基本抽象,表示可以并行操作的不可变的分区元素集合。 5个主要属性1.分区列表(a list partitions)Spark RDD 是被分区的,每一个分区都会被一个计算任务(task)处理,分区数决定了并行计算的数量,RDD的并行度默认从父RDD传给子RDD。...原创 2019-10-30 16:34:55 · 125 阅读 · 0 评论 -
flume,taildir Source
taildir 特点官方文档http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#multiport-syslog-tcp-source观察指定的文件,一旦检测到添加到每个文件中的新行,就几乎实时跟踪它们。如果正在编写新行,则此源将重试读取它们,等待写入完成。这个源是可靠的,即使拖尾文件旋转,也不会丢失数据。它定...原创 2019-08-09 18:44:20 · 519 阅读 · 0 评论 -
初识flume
flume是什么flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94...原创 2019-08-08 20:22:28 · 193 阅读 · 0 评论 -
安装配置高可用Hadoop
首先下载好Hadoop的安装包,并解压1.配置hadoop-env.sh中的java_home修改为自己jdk的路径修改hadoop-env.sh中的java_homeexport JAVA_HOME=/opt/jdk1.8.0_181/2.配置core-site.xml\<!--指定hadoop运行时产生文件的存储目录--><property> <n...转载 2019-07-24 09:11:36 · 144 阅读 · 0 评论 -
hadoop集群测试jar包以及历史命令
使用idea打jar包1.在pom文件的下边将 打包插件2.然后impor 下载打jar包依赖3.在以来中指定主类,包名,类名mrTest.dirver4.点开idea右边的maven project , 然后打开Lifecycle.如果已经存在 tartget 文件夹,点击clean清除点击complite 编译点击package 打包打包完后会生成两个jar包一个jar包...原创 2019-07-18 19:17:19 · 763 阅读 · 0 评论 -
MapReduce词频统计说明
wc词频统计代码:由三个阶段组成:1)Mapper阶段(1)用户自定义的Mapper要继承自己的父类 Mapper(2)Mapper的输入数据是KV对的形式(KV的类型可自定义)(3)Mapper中的业务逻辑写在map()方法中(4)Mapper的输出数据是KV对的形式(KV的类型可自定义)(5)map()方法(maptask进程)对每一个<K,V>调用一次2)Redu...原创 2019-07-18 16:26:55 · 1418 阅读 · 0 评论 -
HDFS客户端操作
首先创建连接1.将本地的文件上传到hdfs上将hdfs的文件上传到本地创建目录mkdir() 可以创建目录mkdirs()可以创建多级目录删除重命名列出文件详细信息判断为文件或为文件夹...原创 2019-07-11 21:19:44 · 142 阅读 · 0 评论 -
Hadoop伪分布式安装
1.上传Hadoop压缩包,解压到/opt下解压完成为:2.进入./hadoop-2.7.2/etc/hadoop/编辑 hadoop-env.sh core-site.xmlhdfs-site.xml mapred-site.xml yarn-site.xml编辑slaves3.编辑hadoop-env.sh 配置自己jdk路径编辑 core-site .x...原创 2019-07-10 10:20:42 · 232 阅读 · 0 评论