大数据
文章平均质量分 55
临界爵迹
这个作者很懒,什么都没留下…
展开
-
深入理解与应用Flink中的水印机制
深入理解flink原创 2024-01-16 10:27:45 · 591 阅读 · 0 评论 -
hive在left join时丢数据
最近在用 hive 做ETL时,出现丢失数据的问题,几番查找下,最终把问题定位在 left join 上,问题如下:select *from aleft join b on a.b_id = b.idleft jon c on b.c_id = c.id; 在过程中,出现部分 c 表数据丢失,然而通过 a 表在源表查找时,确认当前条件下,是可以关联到 c 表有数据的。最终找到两种解决办法: 1)在不影响业务的情况下,用 join...原创 2021-08-04 10:38:37 · 1808 阅读 · 0 评论 -
Hadoop Archives Guide(hdfs文件归档介绍和例子)
一、概括介绍:1)、简介英文:Hadoop archives are special format archives. A Hadoop archive maps to a file system directory. A Hadoop archive always has a *.har extension. A Hadoop archive directory contains metadata (in the form of _index and _masterindex) and data转载 2021-02-20 16:19:35 · 369 阅读 · 3 评论 -
Hive开窗函数总结
https://blog.csdn.net/Abysscarry/article/details/81408265转载 2020-10-30 14:04:18 · 292 阅读 · 0 评论 -
详解hadoop之HDFS Federation
hdfs federation即hdfs的联邦,可以简单理解为多个hdfs集群聚合到一起,更准确的理解是有多个namenode节点的hdfs集群hadoop1.x的hdfs架构主要由namespace(命名空间)和Block Storage(块的存储)两层组成1.namespace由目录、文件、块组成。支持创建、删除、修改、列举命名空间相关系统的操作2.Block Storagebl...转载 2020-09-24 14:26:18 · 299 阅读 · 0 评论 -
Hive中对array类型字段的处理
https://blog.csdn.net/qq_31573519/article/details/86612933?utm_medium=distribute.pc_relevant.none-task-blog-title-1&spm=1001.2101.3001.4242转载 2020-09-24 14:25:14 · 1590 阅读 · 0 评论 -
CDH集成flink
https://blog.csdn.net/molidiyi/article/details/106014972转载 2020-08-04 10:34:21 · 375 阅读 · 0 评论 -
hive 复制整段语句是出现 Display all 475 possibilities? (y or n)错误的处理方法
在用hive时,复制一整片代码运行,发现好多提示: Display all 475 possibilities? (y or n)导致复制失败,一查原因,原来是复制的代码中包含了Tab缩进,只要将原来复制的代码中的Tab空格全部去掉即可,完美解决问题~...转载 2020-07-05 18:07:50 · 516 阅读 · 0 评论 -
sqoop 从mysql导出数据到hdfs后datetime类型后多了个‘.0‘解决
通过sqoop将MySQL datetime类型的数据,在创建hive表时,创建为timestamp类型就可以了。hive支持的时间数据类型可以为String,date,timestamp。但是String类型的的有’.0’的问题,date有null,不识别的问题,timestamp就正常了,原因我就不清楚了。希望知道的人,请赐教。有不对的地方,谢谢指出(_)。————————————————版权声明:本文为CSDN博主「妖果yaoyao」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附转载 2020-07-03 17:45:17 · 811 阅读 · 0 评论 -
sqoop从mysql抓数据tinyint类型会变成boolean类型
mysql数据库里面的字段是 tinyint 类型通过sqoop 抓取出来的数据在HDFS 上面显示的true、false解决办法:jdbc会把tinyint 认为是java.sql.Types.BIT,然后sqoop就会转为Boolean了,悲剧吧在连接上加上一句话tinyInt1isBit=falsejdbc:mysql://localhost/test?tinyInt1isBit=false问题就解决了。————————————————版权声明:本文为CSDN博主「Polaris-zl转载 2020-07-03 14:35:44 · 233 阅读 · 0 评论 -
jobHistory不能查看job日志解决过程
yarn的执行用户是admin,job的启动用户是mapred,admin没有权限操作mapred用户目录的权限。 解决方法:方法1、更换任务提交用户;方法2、修改history文件夹的权限。jobHistory日志:history文件位置:修改后:...原创 2020-07-02 20:34:41 · 1707 阅读 · 0 评论 -
HDFS之Quorum Journal Manager原理
https://blog.csdn.net/chdhust/article/details/79521157转载 2020-04-14 11:41:42 · 158 阅读 · 0 评论 -
HDFS实现HA原理
https://blog.csdn.net/qq_31598113/article/details/69220262转载 2020-04-14 11:22:41 · 235 阅读 · 0 评论 -
Spark 内存管理之Tungsten
https://blog.csdn.net/u011564172/article/details/71170176转载 2019-04-14 19:59:44 · 180 阅读 · 0 评论 -
HBase的预分区
1、为何要预分区?*增加数据读写效率*负载均衡,防止数据倾斜*方便集群容灾调度region*优化Map数量2、如何预分区?每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。3、如何设定预分区?1、手动指定预分区hbase(main):001:0>...原创 2019-07-30 21:20:48 · 671 阅读 · 0 评论 -
数据仓库开发
数据仓库(一)之需求篇:https://blog.csdn.net/mark_wu2000/article/details/82630852数据仓库(二)之维度建模篇:https://blog.csdn.net/mark_wu2000/article/details/82668787数据仓库(三)之架构篇:https://blog.csdn.net/mark_wu2000/article/...转载 2019-07-22 15:48:02 · 175 阅读 · 0 评论 -
spark从kafka获取方式之Receiver与Direct区别
Spark Streaming 获取Kafka的数据有两种方式:Receiver和Direct。Receiver是通过Zookeeper连接Kafka队列获取数据,Direct是直接连接Kafaka的节点获取数据。 Receiver Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内...转载 2019-08-08 16:45:54 · 239 阅读 · 0 评论 -
数据治理
引言:股份制改革对我国银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同顾客的不同需求。对数据本身而言,业务发展加快了数据膨胀的速度,也带来了数据不一致等问题,业务部门的频繁增...转载 2019-08-09 11:02:30 · 586 阅读 · 0 评论 -
spark之checkpoint原理机制
当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的容错机制。checkpoint就是对于一个RDD chain(链)如果后面需要反复使用某些中间结果RDD,可能因为一些故障导致该中间数据丢失,那么就可以针对该RDD启动ch...原创 2019-08-09 20:24:31 · 558 阅读 · 0 评论 -
HBase的rowKey设计技巧
HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过get方式,指定rowkey获取唯一一条记录 通过scan方式,设置startRow和stopR...原创 2019-08-07 18:13:38 · 256 阅读 · 0 评论 -
HBase的协处理器
1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层中集成了 MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单...原创 2019-08-07 18:26:41 · 671 阅读 · 0 评论 -
HBase当中的二级索引的基本介绍
由于HBase的查询比较弱,如果需要实现类似于select name,salary,count(1),max(salary) from user group by name,salary order by salary 等这样的复杂性的统计需求,基本上不可能,或者说比较困难,所以我们在使用HBase的时候,一般都会借助二级索引的方案来进行实现HBase的一级索引就是rowkey,...原创 2019-08-07 18:28:39 · 703 阅读 · 0 评论 -
HBase调优
1、通用优化 1、NameNode的元数据备份使用SSD 2、定时备份NameNode上的元数据,每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 3、为NameNode指定多个元数据目录,使用dfs.name.dir或者dfs.namenode.name.dir指定。一个指定本地磁盘,一个指定网络磁盘。这...原创 2019-08-07 18:34:25 · 159 阅读 · 0 评论 -
hive调优
hive调优原创 2019-09-02 15:04:50 · 97 阅读 · 0 评论 -
hive中一些数据倾斜原因及解决方法
hive中一些数据倾斜原因及解决方法原创 2019-09-02 15:06:47 · 271 阅读 · 0 评论 -
HBase三个重要机制
1、flush机制当MemStore达到阈值,将Memstore中的数据Flush进Storefile涉及属性:hbase.hregion.memstore.flush.size:134217728即:128M就是Memstore的默认阈值hbase.regionserver.global.memstore.upperLimit:0.4即:这个参数的作用是当单个HRegio...原创 2019-07-21 13:46:43 · 432 阅读 · 0 评论 -
HBase底层原理
系统架构Client1 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。Zookeeper1 保证任何时候,集群中只有一个master2 存贮所有Region的寻址入口3 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master4 存储H...原创 2019-07-19 23:21:48 · 167 阅读 · 0 评论 -
hadoop环境搭建之StandAlone
第一步:下载apache hadoop并上传到服务器下载链接:http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz解压命令tar -zxvf hadoop-2.7.5.tar.gz #解压到当前文件夹或者 tar -zxvf hadoop-2.7.5.tar.gz...原创 2019-07-05 10:58:44 · 227 阅读 · 0 评论 -
大数据集群瓶颈
io,硬盘,cpu,带宽,内存原创 2019-04-18 16:35:22 · 1966 阅读 · 0 评论 -
基于SparkStreaming的实时数据清洗
https://blog.csdn.net/weixin_39911113/article/details/78601517转载 2019-04-27 13:47:55 · 750 阅读 · 0 评论 -
spark之shuffle参数优化
spark.shuffle.file.buffer 默认32k shuffle write task端的缓冲区,到达阈值后,溢写到磁盘。将数值调大,减少io操作,提升整体性能(具体数值根据实际情况设置)spark.reducer.maxSizeInFlight 默认48M reduce shuffle task端每次拉取的数据大小。将数值调大,降低io带来的性能...原创 2019-04-18 11:07:39 · 1065 阅读 · 1 评论 -
hadoop之shuffle
map端: 1、读取数据源 2、将数据切片(每片128M),切分成一个个的split 3、启动mapTask,mapTask个数和split个数一样,开始执行任务 4、mapTask将数据读入内存,存在一个内存环形缓冲区(mapreduce.task.io.sort.mb=100,可自定义);当该区域中的容量到达80%(默认mapreduce.map.sor...原创 2019-04-17 20:50:13 · 355 阅读 · 0 评论 -
spark任务执行流程
1、客户端向master提交application,master生成一个applicationMaster2、applicationMaster根据每个worker发送到master心跳,决定在哪个worker节点上启动一个excutor(任务分配三种模式:公平、队列、资源)3、worker启动excutor后,向driver端注册并申请task4、driver端接收到excuto...原创 2019-04-22 15:09:37 · 215 阅读 · 0 评论 -
SparkSQL之catalyst
说到Spark SQL ,我们不得不提到它的优化器(Catalyst),Catalyst是Spark sql的核心,它是针对于Spark SQL语句执行过程中的查询优化框架。所以在想了解Spark SQL的执行流程的时候,理解一下Catalyst的工作流程是很有必要的! 了解Catalyst的话! 一张图解释一下它的全流程。其中黑色方框为Catalyst的工作流程。 SQL语句...转载 2019-04-14 19:54:02 · 1345 阅读 · 0 评论 -
聊聊Flume和Logstash的那些事儿
https://blog.csdn.net/jek123456/article/details/65658790转载 2019-04-12 11:44:15 · 203 阅读 · 0 评论 -
Spark RPC实现原理分析
https://blog.csdn.net/luofenghan/article/details/78486529转载 2019-04-12 09:56:44 · 126 阅读 · 0 评论 -
hbase学习笔记
1. 概念 Hbase是一个海量存储的非关系型数据库,不支持复杂查询操作,支持横向拓展2. 表模型 主键、列族、列、时间戳、cell、版本号(默认保存三个)3. 原理 1 Table中的所有行都按照row key的字典序排列。 2 Table 在行的方向上分割为多个Hregion。 ...原创 2019-03-28 20:10:40 · 214 阅读 · 0 评论 -
sparkRDD
基本概念 RDD(Resilient Distributed Dataset),弹性分布式数据集,是Spark数据处理的核心抽象 属性:分区列表、分区函数、RDD依赖、分片函数(只有kv格式数RDD才有,两种函数HashPatitioner和RangePartitioner,不是kv格式的RDD则是none。可选)、数据就近原则(数据在哪里就在哪个节点执行任务或最近...原创 2019-04-11 10:10:09 · 114 阅读 · 0 评论 -
spark之反压机制
如果群集资源少,处理数据较慢,则可以通过设置最大速率限制来限制接收器。在Spark 1.5中,引入了一项称为反压机制的功能,无需设置此速率限制,因为Spark Streaming会自动计算出速率限制,并在处理条件发生变化时动态调整。可以通过设置来启用配置参数。详细参数配置如下:参数名称 默认值 含义 spark.streaming.backpressure.en...翻译 2019-04-18 17:14:49 · 545 阅读 · 0 评论 -
spark默认端口
8080:master的webUI,sparkwebUI的端口7077:提交任务的端口8081:worker的webUI的端口18080:historyServer的webUI的端口4040:application的webUI的端口原创 2019-04-23 16:11:03 · 4093 阅读 · 0 评论