自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(312)
  • 收藏
  • 关注

原创 个人微信公众号

2020-11-06 19:31:58 13

原创 【累积型快照事实表】订单表

1、concatconcat函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULLhive> select concat('a','b');abhive> select concat('a','b',null);NULL2、concat_wsconcat_ws函数在连接字符串的时候,只要有一个字符串不是NULL,就不会返回NULL。concat_...

2020-09-02 15:46:00 61

原创 Redis五种数据结构详解

一、脑图Redis是基于c语言编写的开源非关系型内存数据库,可以用作数据库、缓存、消息中间件,这么优秀的东西一定要一点一点的吃透它。Redis的五种数据结构包括以下五种:String:字符串类型List:列表类型Set:无序集合类型ZSet:有序集合类型Hash:哈希表类型但是作为一名优秀的程序员可能不能只停留在只会用这五种类型进行crud工作,还是得深入了解这五种...

2020-09-01 15:27:00 67

原创 HBase的的系统架构

原文地址:https://mp.weixin.qq.com/s/wwT5n2JwEEAkrrmOhedziw1、HBase的构成物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZookeeperRegion server负责数据的读写服务,用户通过Region server来实现对数据的访问...

2020-09-01 12:35:00 145

原创 CDH5.16.2安装Phoenix

1、下载所需的包http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/2、上传至/cloudera/parcel-repo/3、分配激活4、启动:不用添加服务,激活就行了服务里就没有/cloudera/parcels/CLABS_PHOENIX/bin/phoenix-sqlline.py ha...

2020-08-30 17:00:00 98

原创 canal和maxwell的安装配置及区别

0、mysql开启binglog在mysql的配置文件(Linux: /etc/my.cnf , Windows: \my.ini)下,修改配置在[mysqld] 区块(没有就创建)设置/添加(1)log-bin=mysql-bin这个表示binlog日志的前缀是mysql-bin ,以后生成的日志文件就是mysql-bin.123456 的文件后面的数字按顺序生成。每...

2020-08-30 15:17:00 76

原创 CDH中Kafka基本指令总结——topic使用与测试producer产生数据、consumer消费数据

一、相关基础内容然后正常kafka的指令是 : ./bin/kafka-topics.sh --zookeeper hadoop300:2181 .......但是使用CDH安装的kafka则不需要全写出此 ./bin/kafka-topics.sh 部分。只许直接写 kafka-topics 即可,这是很重要的一个区别,使用CDH安装的kafka时候要特别注意一下。具体有哪些指...

2020-08-30 12:43:00 154

原创 Kafka工具类(Scala)

1、配置文件config.properties# Kafka配置kafka.broker.list = hadoop300:9092,hadoop301:9092,hadoop302:9092# Redis配置redis.host=hadoop300redis.port=63792、读取Propertiespackage com.duoduo.realtime.u...

2020-08-27 10:49:00 53

原创 ES工具类

1、POM依赖 <dependencies> <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version&...

2020-08-27 10:40:00 70

原创 Elasticsearch和Kibana安装

1、修改Linux配置为什么要修改linux配置?默认elasticsearch是单机访问模式,就是只能自己访问自己。但是我们之后一定会设置成允许应用服务器通过网络方式访问。这时,elasticsearch就会因为嫌弃单机版的低端默认配置而报错,甚至无法启动。所以我们在这里就要把服务器的一些限制打开,能支持更多并发。问题1:max file descriptors [40...

2020-08-26 09:27:00 19

原创 MYSQL-5.7

1、yum安装1)卸载mariadbrpm -qa | grep mariadb | xargs rpm -e --nodeps2)下载msql5.7 yum源wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm3)安装yum源rpm -ivh mysql57-community-r...

2020-08-21 15:55:00 23

原创 hadoop压缩

1、MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFLATE无DEFLATE.deflate否GzipgzipDEFLATE.gz否bzip2bzip2bzip2.bz2是LZOlzopLZO.lzo是Snappy无Snappy.snappy否为了支持多种压缩/解压缩算法,Hadoo...

2020-08-19 09:59:00 22

原创 Hive常用函数大全(窗口函数、分析函数)

1、相关函数1.1 窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统计窗口内往后第n行值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)...

2020-08-18 17:50:00 85

原创 Data Lake的概念、特征、架构与案例

本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程;一、什么是数据湖数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计数据湖的基本架构,对于数据湖的构建至关重要。关于什么是数...

2020-08-17 16:08:00 365

原创 数据模型⽆法复⽤,归根结底还是设计问题

如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。 由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的...

2020-08-17 13:51:00 62

原创 Shuffle优化

1、Map阶段增大缓冲区的大小:默认100M,可以改为200增大缓冲区的溢写百分比:默认0.8,可以改为0.9减少溢写文件的merge次数采用combiner提前预聚合,减少IO。(不影响业务逻辑的前提下,只能加减,不能做乘除等复杂聚合)2、Reduce阶段合理设置map和reduce数:两个都不能设置太少,也不能设置太多。太少,会导致task等待,延长处理时间太...

2020-08-11 17:43:00 29

原创 Flink 参数配置和常见参数调优

1、Flink参数配置jobmanger.rpc.address:jobmanger的地址jobmanger.rpc.port:jobmanger的端口jobmanager.heap.mb:jobmanager的堆内存大小。不建议配的太大,1-2G足够。taskmanager.heap.mb:taskmanager的堆内存大小。大小视任务量而定。需要存储任务的中间值...

2020-08-11 09:19:00 115 1

原创 hive JDBC连接总结

1、 问题:拒绝连接解决方法:hiveserver2 连接异常,重启(hiveserver2连接比较慢要等一会)我这里两个RunJar是启动了meatestore和hiveserver22、 user:duoduo is not allowed impersonate hadoop100这个duoduo,是我的登录的用户,hive的用户和所属组都是duoduo解决方法:...

2020-08-09 13:57:00 92

原创 Sqoop 使用shell命令的各种参数的配置及使用方法

1、Sqoop简介Sqoop将用户编写的sqoop命令翻译为MR程序,MR程序读取关系型数据库中的数据,写入到HDFS或读取HDFS上的数据,写入到关系型数据库在MR程序中如果要读取关系型数据中的数据,必须制定输入格式为DBInputformat在MR程序中如果要向关系型数据吸入数据,必须制定输出格式为DBOutputformatSqoop命令运行的MR程序,只有Map阶段,没...

2020-07-31 16:30:00 71

原创 hive笔记

1、显示数据库,列名Apache<property> <name>hive.cli.print.header</name> <value>true</value></property><property> <name>hive.cli.print.current.db</...

2020-07-30 19:02:00 34

原创 HBase集成hive

一、为了创建一个新的由Hive管理的HBase表,请使用CREATE TABLECREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPERTIES ("hbase.columns.mappi...

2020-07-27 11:25:00 21

原创 kafka工作流程及文件存储机制

1、Kafka工作流程kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的topic是逻辑上的概念,而partition是物理上的概念,每个partition对应一个log文件,该log文件中存储的就是producer生产的数据。producer生产的数据会被不断追加到log文件的末端,且每条数据都有自己的offsetoffset是一个l...

2020-07-25 11:16:00 33

原创 hive函数

1、日期函数1.1 date_add 指定日期n天之后用法:date_add(date('2018-09-09'),10) 参数类型分别为date和int,返回date类型select date_add(date('2018-09-09'),10)-- 返回:2018-09-191.2 add_months 指定日期n月之后用法:add_months(date('2018-0...

2020-07-22 15:59:00 49

原创 hadoop、yarn时间与集群时间不同

cat hadoop-env.shexport HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08"cat yarn-env.shYARN_OPTS="$YARN_OPTS -Duser.timezone=GMT+08"cat hbase-env.shexport TZ="Asia/Shanghai"查看linux集群时区:...

2020-07-10 18:18:00 84

原创 Mysql 时间字段(加上或者减去一段时间)

Mysql时间加减函数为date_add()、date_sub()定义和用法DATE_ADD() 函数向日期添加指定的时间间隔。DATE_SUB() 函数向日期减少指定的时间间隔。语法DATE_ADD(date,INTERVAL expr type)DATE_SUB(date,INTERVAL expr type)date 参数是合法的日期表达式。expr参数是您...

2020-07-09 09:13:00 214

原创 awk数组与语法

1、awk数组1.1 数组结构 1.2 数组分类索引数组:以数字为下标关联数组:以字符串为下标1.3 awk关联数组现有如下文本,格式如下:即左边是随机字母,右边是随机数字, 即将相同的字母后面的数字加在一起,按字母的顺序输出以$1为下标,创建数组a[$1]=a[$1]+$2 或者(a[$1]+=$2)然后配合END和for循环输出结果:for(i in a ) :...

2020-07-07 14:43:00 88

原创 awk模块、变量、执行

1、BEGIN模块BEGIN模块在awk读取文件之前就执行BEGIN模式常常被用来修改内置变量ORS、RS、FS、OFS等值2、awk内置变量(预定义变量)变量名属性$0当前记录,一整行$1,$2,$3....$a当前记录的第n个区域,区域间由FS分隔。FS输入区域分隔符,默认是空格。field separatorNF当前记录中的区域个数,...

2020-07-06 18:00:00 38

原创 awk简介与表达式实例

1、awk概述awk不仅仅是Linux系统中的一个命令,而且是一种编程语言它可以用来处理数据和生成报告(excel)处理的数据可以是一个或多个文件可以使直接来自标准输入、也可以是通过管道获取标准输入awk可以在命令行上直接编辑命令进行操作,也可以写成awk程序来进行更为复杂的操作2、awk环境简介3、awk的格式awk指令是由模式、动作、或者模式和动作的组合组成p...

2020-07-06 17:25:00 67

原创 图数据库

1、为什么需要图数据库我们假设这样一种特殊的查询场景:找出开发商是XXX,小区绿化率大于30%,周边200米有大型超市,500米有地铁,1000米有三甲医院,2000米有升学率超过60%的高中,房价在800W以内,最近被经纪人带看次数最多的房子。这可能是一个客户想要的房子,但是各位觉得有哪个产品可以支持么?如果说我们用传统的关系型数据库,MySQL或者Oracle可以吗?那是不是我...

2020-07-03 11:35:00 122 1

原创 推荐几款优秀的开源博客系统

1.OneBlog一个简洁美观、功能强大并且自适应的Java博客。项目地址:https://gitee.com/yadong.zhang/DBlog2.haloHalo 可能是最好的 Java 博客系统。项目路径:https://github.com/halo-dev/halo3.mblog开源免费的博客系统mblog开源免费的博客系统, Java语言开发, 支持mys...

2020-07-02 16:15:00 505

原创 红黑树

红黑树(Red Black Tree)是一种自平衡的二叉搜索树(Self-balancing Binary Search Tree)。以前也叫平衡二叉B树(Symmetric Binary B-Tree)1、前言树的结构1.1 平衡二叉搜索树平衡二叉搜索树(Balanced Binary Search Tree),简称BBST,常见的平衡二叉搜索树是AVL和红黑树二叉搜索树...

2020-07-02 14:21:00 54

原创 用户画像基础概念

1、何为用户画像用户画像是指根据用户的属性、偏好、行为、生活习惯、等信息而抽象出来的标签化用户模型。通俗讲就是给用户打标签,而标签是通过对用户信息分析而来的高度提炼的特征标识通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理用户画像是对现实世界中用户的建模,用户画像应该包含目标、方式、组织】标准、验证这些方面目标:指定是描...

2020-07-01 11:19:00 192

原创 wordpress经验

1、wordpress修改后台站点地址后无法打开的2种解决办法在不小心更改了wordpress后台站点地址后,发现登陆不了后台。很是头疼。网上遇到前辈使用的两种方式,由于当时的模板下没有找到function.php,就用了第二个方法,成功了!!第一种:做测试不小心把后台WordPress 地址(URL)和站点地址(URL)地址给改了,本以为改的是本地电脑上的wordpress设置...

2020-06-30 18:55:00 279

原创 Kafka压力测试(官方自带)

1、Kafka压测用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh2、Kafka Producer压力测试在.../kafka/bin目录下[duoduo@ha...

2020-06-27 13:46:00 245 1

原创 Shell-01

1、概述大数据程序员为什么要学习Shell?(1)需要看懂运维人员编写的shell程序(2)偶尔会编写一些简单shell程序来管理集群、提高开发效率Shell是 一个命令行解释器,它接收应用程序/用户命令,然后调用操作系统内核Shell是一个功能强大的编程语言、易编写、易调试、灵活性强2、Shell解析器Linux提供的shell解析器有:[duoduo@hadoo...

2020-06-24 18:14:00 65

原创 数仓分层

1、概述数据仓库中,常见的分层包括ods、dwd、dws、dwt、ads、dim等2、传统上的数据分层早期的大数据平台是以hadoop为核心,数据开发也是以MapReduce为主,hive等sql类开发很少见。因为当数据从多个源头采集上来之后,格式化便成了原始数据。原始数据经过MapReduce的开发之后,生成各个报表。然后统一导入到mysql或者oracle中,便可以直接看到...

2020-06-23 11:04:00 189

原创 Linux常用命令(三)

7、搜索查找类7.1 find查找文件或目录find指令将从指定目录下递归地遍历各个子目录,将满足条件的文件显示在终端语法find【path】【选项】选项说明可使用的选项有二三十个之多,在此只介绍最常用的部份选项功能-name<查询方式>按照指定的文件名查找模式查找文件-user<用户名>查找属于指定用户名所有文件...

2020-06-19 18:01:00 63

原创 Linux常用命令(二)

3、时间日期类语法date 【option】【+formart】选项选项功能-d<时间字符串>显示指定的“时间字符串”表示的时间,而非当前时间-s<日期时间>设置系统日期时间参数参数功能<+日期时间格式>指定显示时使用的日期时间格式3.1 date 显示当前时间语法(...

2020-06-16 14:53:00 50

原创 Kafka+Spark Streaming保证exactly once语义

在Kafka、Flink、Spark Streaming等分布式流处理系统中(Kafka本质上市流处理系统,不单是MQ),存在三种消息传递语义(Message Delivery Semantics):At Least Once每条消息会被收到1次或多次。例如发送方S在超时时间内没有收到接收方R的通知,或者收到了R的报错,就会不断重发消息直至R传回ACKAt Most Onc...

2020-06-15 18:24:00 60

原创 JVM架构和GC命令总结

概述JVM架构体系垃圾回收对象存活性判断垃圾回收算法垃圾回收器(回收算法的具体实现)类装载启动类加载器扩展类加载器应用程序类加载器自定义类加载器执行引擎解释器即时编译器运行时数据区堆heap方法区程序计数器虚拟机栈本地方法栈垃圾回收器开启命令Reference1、概述Java虚拟机Java virtual Ma...

2020-06-15 14:11:00 56

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除