自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 资源 (1)
  • 问答 (4)
  • 收藏
  • 关注

原创 StarRocks几种典型join的理解

StarRocks几种典型join的理解

2024-01-26 11:36:10 317

原创 深入理解与应用Flink中的水印机制

深入理解flink

2024-01-16 10:27:45 592

原创 数据仓库建模

数据仓库建模

2024-01-12 14:44:36 387

原创 StarRocks:快速查询的秘密解析

StarRocks快速查询的原理。

2023-12-28 15:36:30 1340

原创 StarRocks数据模型之主键模型(当前版本v3.1)

StarRocks多方位解析。

2023-12-11 15:10:53 416

转载 flink八种分区策略

Flink的八种分区策略源码解读 - 大数据技术与数仓 - 博客园

2021-12-06 14:21:41 286

原创 hive在left join时丢数据

最近在用 hive 做ETL时,出现丢失数据的问题,几番查找下,最终把问题定位在 left join 上,问题如下:select *from aleft join b on a.b_id = b.idleft jon c on b.c_id = c.id; 在过程中,出现部分 c 表数据丢失,然而通过 a 表在源表查找时,确认当前条件下,是可以关联到 c 表有数据的。最终找到两种解决办法: 1)在不影响业务的情况下,用 join...

2021-08-04 10:38:37 1809

转载 Hadoop Archives Guide(hdfs文件归档介绍和例子)

一、概括介绍:1)、简介英文:Hadoop archives are special format archives. A Hadoop archive maps to a file system directory. A Hadoop archive always has a *.har extension. A Hadoop archive directory contains metadata (in the form of _index and _masterindex) and data

2021-02-20 16:19:35 369 3

转载 Hive开窗函数总结

https://blog.csdn.net/Abysscarry/article/details/81408265

2020-10-30 14:04:18 292

转载 详解hadoop之HDFS Federation

hdfs federation即hdfs的联邦,可以简单理解为多个hdfs集群聚合到一起,更准确的理解是有多个namenode节点的hdfs集群hadoop1.x的hdfs架构主要由namespace(命名空间)和Block Storage(块的存储)两层组成1.namespace由目录、文件、块组成。支持创建、删除、修改、列举命名空间相关系统的操作2.Block Storagebl...

2020-09-24 14:26:18 299

转载 Hive中对array类型字段的处理

https://blog.csdn.net/qq_31573519/article/details/86612933?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242

2020-09-24 14:25:14 1590

转载 CDH集成flink

https://blog.csdn.net/molidiyi/article/details/106014972

2020-08-04 10:34:21 375

转载 hive 复制整段语句是出现 Display all 475 possibilities? (y or n)错误的处理方法

在用hive时,复制一整片代码运行,发现好多提示: Display all 475 possibilities? (y or n)导致复制失败,一查原因,原来是复制的代码中包含了Tab缩进,只要将原来复制的代码中的Tab空格全部去掉即可,完美解决问题~...

2020-07-05 18:07:50 516

转载 sqoop 从mysql导出数据到hdfs后datetime类型后多了个‘.0‘解决

通过sqoop将MySQL datetime类型的数据,在创建hive表时,创建为timestamp类型就可以了。hive支持的时间数据类型可以为String,date,timestamp。但是String类型的的有’.0’的问题,date有null,不识别的问题,timestamp就正常了,原因我就不清楚了。希望知道的人,请赐教。有不对的地方,谢谢指出(_)。————————————————版权声明:本文为CSDN博主「妖果yaoyao」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附

2020-07-03 17:45:17 812

转载 sqoop从mysql抓数据tinyint类型会变成boolean类型

mysql数据库里面的字段是 tinyint 类型通过sqoop 抓取出来的数据在HDFS 上面显示的true、false解决办法:jdbc会把tinyint 认为是java.sql.Types.BIT,然后sqoop就会转为Boolean了,悲剧吧在连接上加上一句话tinyInt1isBit=falsejdbc:mysql://localhost/test?tinyInt1isBit=false问题就解决了。————————————————版权声明:本文为CSDN博主「Polaris-zl

2020-07-03 14:35:44 233

原创 jobHistory不能查看job日志解决过程

yarn的执行用户是admin,job的启动用户是mapred,admin没有权限操作mapred用户目录的权限。 解决方法:方法1、更换任务提交用户;方法2、修改history文件夹的权限。jobHistory日志:history文件位置:修改后:...

2020-07-02 20:34:41 1707

转载 HDFS之Quorum Journal Manager原理

https://blog.csdn.net/chdhust/article/details/79521157

2020-04-14 11:41:42 159

转载 HDFS实现HA原理

https://blog.csdn.net/qq_31598113/article/details/69220262

2020-04-14 11:22:41 235

转载 从0建设离线数据仓库

https://blog.csdn.net/u013411339/article/details/100146017

2019-09-18 10:18:12 317

原创 hive中一些数据倾斜原因及解决方法

hive中一些数据倾斜原因及解决方法

2019-09-02 15:06:47 271

原创 hive调优

hive调优

2019-09-02 15:04:50 97

原创 spark之checkpoint原理机制

当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的容错机制。checkpoint就是对于一个RDD chain(链)如果后面需要反复使用某些中间结果RDD,可能因为一些故障导致该中间数据丢失,那么就可以针对该RDD启动ch...

2019-08-09 20:24:31 558

转载 数据治理

引言:股份制改革对我国银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同顾客的不同需求。对数据本身而言,业务发展加快了数据膨胀的速度,也带来了数据不一致等问题,业务部门的频繁增...

2019-08-09 11:02:30 586

转载 spark从kafka获取方式之Receiver与Direct区别

Spark Streaming 获取Kafka的数据有两种方式:Receiver和Direct。Receiver是通过Zookeeper连接Kafka队列获取数据,Direct是直接连接Kafaka的节点获取数据。 Receiver Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内...

2019-08-08 16:45:54 239

原创 HBase调优

1、通用优化 1、NameNode的元数据备份使用SSD 2、定时备份NameNode上的元数据,每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 3、为NameNode指定多个元数据目录,使用dfs.name.dir或者dfs.namenode.name.dir指定。一个指定本地磁盘,一个指定网络磁盘。这...

2019-08-07 18:34:25 160

原创 HBase当中的二级索引的基本介绍

由于HBase的查询比较弱,如果需要实现类似于select name,salary,count(1),max(salary) from user group by name,salary order by salary 等这样的复杂性的统计需求,基本上不可能,或者说比较困难,所以我们在使用HBase的时候,一般都会借助二级索引的方案来进行实现HBase的一级索引就是rowkey,...

2019-08-07 18:28:39 703

原创 HBase的协处理器

1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层中集成了 MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单...

2019-08-07 18:26:41 671

原创 HBase的rowKey设计技巧

HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过get方式,指定rowkey获取唯一一条记录 通过scan方式,设置startRow和stopR...

2019-08-07 18:13:38 256

转载 Eureka的工作原理以及它与ZooKeeper的区别

1、Eureka 简介Eureka 是 Netflix 出品的用于实现服务注册和发现的工具。 Spring Cloud 集成了 Eureka,并提供了开箱即用的支持。其中, Eureka 又可细分为 Eureka Server 和 Eureka Client。2、基本原理上图是来自eureka的官方架构图,这是基于集群配置的eureka; - 处于不同节点的eure...

2019-07-31 14:39:00 87

原创 HBase的预分区

1、为何要预分区?*增加数据读写效率*负载均衡,防止数据倾斜*方便集群容灾调度region*优化Map数量2、如何预分区?每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。3、如何设定预分区?1、手动指定预分区hbase(main):001:0&gt...

2019-07-30 21:20:48 671

转载 数据仓库开发

数据仓库(一)之需求篇:https://blog.csdn.net/mark_wu2000/article/details/82630852数据仓库(二)之维度建模篇:https://blog.csdn.net/mark_wu2000/article/details/82668787数据仓库(三)之架构篇:https://blog.csdn.net/mark_wu2000/article/...

2019-07-22 15:48:02 175

原创 HBase三个重要机制

1、flush机制当MemStore达到阈值,将Memstore中的数据Flush进Storefile涉及属性:hbase.hregion.memstore.flush.size:134217728即:128M就是Memstore的默认阈值hbase.regionserver.global.memstore.upperLimit:0.4即:这个参数的作用是当单个HRegio...

2019-07-21 13:46:43 432

原创 HBase底层原理

系统架构Client1 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。Zookeeper1 保证任何时候,集群中只有一个master2 存贮所有Region的寻址入口3 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master4 存储H...

2019-07-19 23:21:48 168

转载 Logstash安装和使用

https://www.cnblogs.com/tonglin0325/p/9044674.html

2019-07-09 10:14:44 81

原创 idea创建工程失败

idea创建工程一直失败,不管是javaweb还是maven等,一直显示无法创建.idea文件或者无法在指定的地方创建文件,一番闹腾以后,发现是在创建工程的地方需要管理员权限,这样的话只需修改文件权限或者选择一个不需要管理员权限的地方创建工程即可。...

2019-07-08 16:31:45 1923

原创 hadoop环境搭建之StandAlone

第一步:下载apache hadoop并上传到服务器下载链接:http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz解压命令tar -zxvf hadoop-2.7.5.tar.gz #解压到当前文件夹或者 tar -zxvf hadoop-2.7.5.tar.gz...

2019-07-05 10:58:44 227

转载 mysql索引

https://blog.csdn.net/u012954706/article/details/81241049

2019-06-12 09:58:39 68

原创 HBase集群环境搭建(CDH版本)

注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行第一步:下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.co...

2019-06-11 20:19:01 5111 1

原创 hbase基础介绍

1、HBase基本介绍hbase是bigtable的开源java版本。是建立在hdfs上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很...

2019-06-10 23:35:42 228

原创 读书笔记----数据挖掘01

数据挖掘的原因数据挖掘定义数据挖掘的数据类型数据挖掘之可挖掘模式数据挖掘技术数据挖掘所面向的应用数据挖掘的主要问题

2019-05-21 10:39:06 302

maven冲突jar包清理脚本

构建maven工程时pom.xml中引入依赖时有红色字体,setting处理了,也将jar包的版本号都试了一遍,还是没解决,后来请教大牛,原来是没连网,maven工程加载了一部分jar包,连网之后自动下载的jar包跟之前的冲突,用这个脚本放在Maven仓库的目录,直接打开,可以将之前下载的jar包自动删除,连网重新全部下载,就可以解决这个问题了!

2018-11-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除