自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (7)
  • 收藏
  • 关注

原创 Hive不同存储格式的压缩和查询效率比对

  新数仓     老数仓   原文件大小 100G 100G 100G 100G 100G 存储格式 ORC Sequencefile Parquet RCfile Avro 存储大小 1.8G 67.0G 11G 63.8G 66.7G 存储耗费时间 5...

2020-04-19 14:02:10 740

原创 Hive-Sql常用参数设置和开发技巧

常用开发技巧的整理:1、Hive脚本常用参数的设置##压缩设置set mapred.compress.map.output = true;set mapred.output.compress = true;set hive.exec.compress.output = true;##输出设置set hive.merge.mapfiles = true;set hive.merge...

2020-04-19 13:38:31 1097

原创 hive小文件处理方法

方法一hive方法处理set hive.merge.mapfiles=true; -- map only job 结束是合并小文件set hive.merge.mapredfiles=true; -- 合并reduce输出的小文件set hive.merge.smallfiles.avgsize=256000000; -- 当输出文件平均大小小于该值,启动新job合并文件set hiv...

2019-12-27 10:13:54 536

原创 hive:textfile,sequencefile和rcfile的使用与区别详解

hive在创建表时默认存储格式是textfile,或者显示自定义的stored as textfile.很多人知道hive常用的存储格式有三种,textfile,sequencefile,rcfile.但是却说不清楚这三种格式的干什么用的,本质有有什么区别?适合什么时候用?为什么hive会有多种存储格式?因为hive是文本批处理系统,所以就存在一个往hive...

2019-12-27 10:06:42 208

原创 Hive如何处理小文件问题?

一、小文件是如何产生的1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。二、小文件问题的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。2.在HD...

2019-12-27 10:04:17 162

原创 面试题目

自我介绍java多线程实现的方法java多线程实现锁的方式?Synchronized和Lock和区别?垃圾回收的方法?scala隐式转换,举一个例子scala中list的slide函数???hadoop中,解释一下shufflehive中如何解决数据倾斜?如何实现kafka的精准一次消费?讲了若泽的项目,问为什么不用kafka,如果flume第二层挂了,flume sink到H...

2019-12-26 14:39:09 377

原创 maven_jar

父工程<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="htt...

2019-12-19 17:48:21 115

原创 数仓总结

0.自我介绍1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问)业务调研 需求调研 数据调研业务域 主题域/数据域 CDM 总线矩阵分层架构 定制规范 命名规范、开发规范、流程规范维度建模 星座模型 宽表 粒度 指标体系任务调度 数据质量 元数据管理 血缘关系 数据治理BI可视化 OLAP多维分析 用户画像 推荐系统2.如何建设数据中台?可简单说...

2019-12-17 10:31:25 458

原创 hive参数

SET hive.auto.convert.join = TRUE;SET hive.exec.parallel = TRUE;SET hive.exec.parallel.thread.number = 10;set hive.groupby.skewindata=false;set mapred.job.reuse.jvm.num.tasks=-1;set hive.map.aggr...

2019-12-13 17:41:46 183

原创 kylin查询10000000限制,可以缩小范围查询

查询失败: org.apache.kylin.rest.exception.InternalErrorException:Query returned 10182925 rows exceeds threshold 10000000 while executing SQL:"SELECT mea_jits_ctr_retention_source_d.dayno AS col_109911_d...

2019-12-10 10:57:44 346

shell笔记.zip

在计算机科学中,Shell俗称壳(用来区别于核),是指“为使用者提供操作界面”的软件(命令解析器)。它类似于DOS下的command.com和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序

2020-08-17

sqoop_export.zip

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2020-08-16

大数据技术之高频面试题7.zip

面试,,,Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行

2020-08-16

flink文档资料.zip

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行

2020-08-16

kafka笔记.zip

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。

2020-08-16

idea教学笔记.zip

IDEA 全称 IntelliJ IDEA,是java编程语言开发的集成环境。IntelliJ在业界被公认为最好的java开发工具,尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合

2020-08-16

hadoop笔记.zip

分布式系统(distributed system)是建立在网络之上的软件系统。正是因为软件的特性,所以分布式系统具有高度的内聚性和透明性。因此,网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统),而不是硬件

2020-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除