自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 flink写入hbase

POM <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_${scala.version}</artifactId> <version>${flink.version}</vers

2022-01-10 16:34:16 2174 1

原创 数仓理论概述

模型1.ER模型数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF 。数据仓库中的 3NF OLTP 系统中的 3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。其具有以下几个特点:需要全面了解企业业务和数据实施周期非常长。对建模人员的能力要求非常高。采用模型建设数据仓库模型的出发点是整合数据,将各个系统中

2021-08-05 14:31:04 364

原创 CDP项目

CDP项目说明:CDP是(customer data platform)的缩写,译为客户数据平台。现在很多线下企业转型,都往线上发展,那么需要做到了解客户是谁,这似乎很简单,但客户与业务互动渠道的激增,使这个简单的目标变得极其复杂。因为每个部门的数据不同步,针对的对象不同,都有自己的应用场景。这些部门各自产生新的、孤立的、片面的客户数据,却无法快速同步,甚至团队之间还怀疑对方数据是否正确。因此,企业需要一个统一真实的数据源来描述客户,而不是任由客户的不同维度数据由不同部门各自存储。所以,客户数据平台(C

2021-02-22 16:45:02 2735 2

原创 部门工资前三高的员工的信息

Employee 表,员工所有信息,如下:+----+-------+--------+--------------+| Id | Name | Salary | Department |+----+-------+--------+--------------+| 1 | 张三 | 70000 | A || 2 | 李四 | 80000 | B ...

2019-11-27 10:21:15 247

原创 DMP项目

DMP说明:DMP(Data Management Platform)数据管理平台,是把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,让用户可以把这些细分结果推向现有的互动营销环境里的平台。1.项目背景互联网广告(本项目针对手机,OTT,PC)的崛起得益于信息技术的发展和普及,智能的终端设备迅猛的发展。互联网广告的优势:1)受众多 6-7亿网民2)可以跟踪用户...

2019-08-23 17:33:52 2539

原创 Hadoop知识汇总

原理解析一·YARN调优1. yarn相关参数解析1).RM的内存资源配置, 配置的是资源调度相关RM1:yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存RM2:yarn.scheduler.maximum-allocation-mb 分配给AM单个容器可申请的最大内存注:最小值可以计算一个节点最大Container数量...

2019-08-22 15:07:12 123

原创 Hive常见问题

一. Both left and right aliases encountered in JOIN’*’ 以及 cannot recognize input near in sub1.cannot recognize这个错误主要由于每一个子查询的括号外面最好是能够有别名,所以在select * from (select * from table_name) a后面添加一个子查询的别名,就可...

2019-08-15 14:49:30 819

原创 kafka知识点

大佬的文章这里不做kafka搭建的指导了,一般都是直接解压就可以了,网上很多文档,这里不多说。我主要说说基本操作和原理。集群启动nohup XXX/kafka/bin/kafka-server-start.sh XXX/kafka/config/server.properties > /dev/null 2>&1 &常用命令-查看全部XXX/ka...

2019-06-03 19:47:16 147

原创 CentOS7搭建CDH5.16.1教程

简介因为之前我搭建的是Apache原生的,维护起来很麻烦,重启什么的都需要写脚本,太麻烦了,所以这次公司需要搭建集群,我就选择了CDH5.16.1的进行搭建。环境及角色分配环境是ContOS7系统的6台机器,1.8T磁盘,32G内存,8核16线程的CPU。ip主机名角色192.168.25.120serverserver192.168.25.121agen...

2019-05-30 16:57:32 1415

原创 MySql索引-优化

一·理解SQL执行顺序手写顺序SELECT DISTINCT <select_list>FROM <left_table><join_type>JION <right_tablr>ON<join_condition> WHERE <where_condition>GROUP BY <grou...

2019-04-28 16:58:22 96

原创 Sqoop基本操作

Sqoop基本操作,待补充1.导入到hdfssqoop import \--connect jdbc:mysql://localhost:3306/sys \--username user \--password pw \--table table_name \--target-dir hdfs_path \--delete-target-dir \--num-mappers 1...

2019-04-25 11:17:20 221

原创 HBase--知识点汇总

1.HMaster的作用 {1)分配region2)负载均衡3)发现失效的regionserver,并重新将任务分配到别的regionserver上4)GFS的垃圾文件回收5)处理用户对标的增删改查的操作}2.HBase创建表的流程{读取zookeeper中的master的地址信息返回master信息发起建表请求计算新表应该存放在哪些机器上将建表信息写入zookee...

2018-11-26 18:55:52 382

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除