- 博客(12)
- 收藏
- 关注
原创 flink写入hbase
POM <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_${scala.version}</artifactId> <version>${flink.version}</vers
2022-01-10 16:34:16
2174
1
原创 数仓理论概述
模型1.ER模型数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF 。数据仓库中的 3NF OLTP 系统中的 3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。其具有以下几个特点:需要全面了解企业业务和数据实施周期非常长。对建模人员的能力要求非常高。采用模型建设数据仓库模型的出发点是整合数据,将各个系统中
2021-08-05 14:31:04
364
原创 CDP项目
CDP项目说明:CDP是(customer data platform)的缩写,译为客户数据平台。现在很多线下企业转型,都往线上发展,那么需要做到了解客户是谁,这似乎很简单,但客户与业务互动渠道的激增,使这个简单的目标变得极其复杂。因为每个部门的数据不同步,针对的对象不同,都有自己的应用场景。这些部门各自产生新的、孤立的、片面的客户数据,却无法快速同步,甚至团队之间还怀疑对方数据是否正确。因此,企业需要一个统一真实的数据源来描述客户,而不是任由客户的不同维度数据由不同部门各自存储。所以,客户数据平台(C
2021-02-22 16:45:02
2735
2
原创 部门工资前三高的员工的信息
Employee 表,员工所有信息,如下:+----+-------+--------+--------------+| Id | Name | Salary | Department |+----+-------+--------+--------------+| 1 | 张三 | 70000 | A || 2 | 李四 | 80000 | B ...
2019-11-27 10:21:15
247
原创 DMP项目
DMP说明:DMP(Data Management Platform)数据管理平台,是把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,让用户可以把这些细分结果推向现有的互动营销环境里的平台。1.项目背景互联网广告(本项目针对手机,OTT,PC)的崛起得益于信息技术的发展和普及,智能的终端设备迅猛的发展。互联网广告的优势:1)受众多 6-7亿网民2)可以跟踪用户...
2019-08-23 17:33:52
2539
原创 Hadoop知识汇总
原理解析一·YARN调优1. yarn相关参数解析1).RM的内存资源配置, 配置的是资源调度相关RM1:yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存RM2:yarn.scheduler.maximum-allocation-mb 分配给AM单个容器可申请的最大内存注:最小值可以计算一个节点最大Container数量...
2019-08-22 15:07:12
123
原创 Hive常见问题
一. Both left and right aliases encountered in JOIN’*’ 以及 cannot recognize input near in sub1.cannot recognize这个错误主要由于每一个子查询的括号外面最好是能够有别名,所以在select * from (select * from table_name) a后面添加一个子查询的别名,就可...
2019-08-15 14:49:30
819
原创 kafka知识点
大佬的文章这里不做kafka搭建的指导了,一般都是直接解压就可以了,网上很多文档,这里不多说。我主要说说基本操作和原理。集群启动nohup XXX/kafka/bin/kafka-server-start.sh XXX/kafka/config/server.properties > /dev/null 2>&1 &常用命令-查看全部XXX/ka...
2019-06-03 19:47:16
147
原创 CentOS7搭建CDH5.16.1教程
简介因为之前我搭建的是Apache原生的,维护起来很麻烦,重启什么的都需要写脚本,太麻烦了,所以这次公司需要搭建集群,我就选择了CDH5.16.1的进行搭建。环境及角色分配环境是ContOS7系统的6台机器,1.8T磁盘,32G内存,8核16线程的CPU。ip主机名角色192.168.25.120serverserver192.168.25.121agen...
2019-05-30 16:57:32
1416
原创 MySql索引-优化
一·理解SQL执行顺序手写顺序SELECT DISTINCT <select_list>FROM <left_table><join_type>JION <right_tablr>ON<join_condition> WHERE <where_condition>GROUP BY <grou...
2019-04-28 16:58:22
96
原创 Sqoop基本操作
Sqoop基本操作,待补充1.导入到hdfssqoop import \--connect jdbc:mysql://localhost:3306/sys \--username user \--password pw \--table table_name \--target-dir hdfs_path \--delete-target-dir \--num-mappers 1...
2019-04-25 11:17:20
221
原创 HBase--知识点汇总
1.HMaster的作用 {1)分配region2)负载均衡3)发现失效的regionserver,并重新将任务分配到别的regionserver上4)GFS的垃圾文件回收5)处理用户对标的增删改查的操作}2.HBase创建表的流程{读取zookeeper中的master的地址信息返回master信息发起建表请求计算新表应该存放在哪些机器上将建表信息写入zookee...
2018-11-26 18:55:52
382
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人