自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 hive on spark 的nvl函数类型一致

报错:[42000][3] Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the root cause.错误原因:nvl函数(字段,默认值),要求字段类型与默认值类型必须一致,特别

2020-10-16 18:58:53 2012

原创 hive基础知识大全

一、Hive基本概念1.1 hive是什么hive是基于hadoop的一个数仓分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据 tel up down1383838438 1345 15671383838439 5345 15671383838440 1241 165771383838441

2020-10-16 08:09:20 827

原创 hive中metastore服务、hiveserver2服务、hive客户端、beeline客户端连接元数据的方式

1.前言hive是Hadoop的客户端,启动hive前必须启动hadoop,同时hive的元数据存储在mysql中,是由于hive自带的derby数据库不支持多客户端访问。2.开启metastore服务的参数hive-site.xml中打开metastore的连接地址。<!-- 指定存储元数据要连接的地址 --> <property> <name>hive.metastore.uris</name> <va

2020-10-10 21:04:46 6920 1

原创 spark入门总结

1.spark要是经过Shuffle也会落盘2.MR不适合迭代式计算,MR1 ->结果落盘 ->MR2 ->结果落盘 ->MR33.Hadoop2.x解决了Hadoop1.x的问题,实现了Yran,将任务调度与资源调度解耦,并且计算框架可插拔(可以换别的计算引擎)4.RDD弹性分布式数据集,相当于抽象出一个集合,可以使用集合的方法,但是不同于集合,集合是真正储存数据的, RDD不存数据,而存计算逻辑的。通过计算逻辑可以拿到数据。5.RDD中的方法叫算子。6.Spark做.

2020-09-28 13:54:12 195

原创 SparkCore笔记总结

1. IO流中的BufferedInputStream体现出装饰者设计模式。 1)装饰者设计模式由装饰者和被装饰者两部分组成; 2)装饰者扩增被装饰者的功能,BufferedInputStream(装)增加了FileInputStream(被装)的功能, 由一个字节一个字节的读取变成一次读取一批数据; 3)装饰者与被装饰者有相同的方法,这样装饰者使用方法时,就感觉使用被装饰者的方法一样,只不过对功能进行了扩增。 比如如果是文本,还可以进一步包装,对字节流(FileI...

2020-09-28 13:52:50 188

原创 hive常用函数+使用说明

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp(); select unix_timestamp('2008-08-08 08:08:08');from_unixtime:将时间戳转为日期格式 select from_unixtime(1218182888);current_date:当前日期 select current_date();cu...

2020-09-25 18:39:53 234

原创 一文解决Spark 数据倾斜

一、什么是数据倾斜对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时的1 / N,就必须保证每台机器的任务量相等。不幸的是,很多时候,任务的分配是不均匀的,甚至不均匀到大部分任务被分配到个别机器上,其它大部分机器所分配的

2020-09-25 18:35:57 410

原创 Hive常用函数

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 from_unixtime:将时间戳转为日期格式current_date:当前日期current_timestamp:当前的日期加时间to_date:抽取日期部分year:获取年month:获取月day:获取日hour:获取时minute:获取分second:获取秒weekofyear:当前时间是一年中的第几周dayofmonth:当前时间是一个月中的第几天months_between: 两个日期间的月...

2020-09-21 13:19:05 806

原创 如何高效设计HBase RowKey,这些细节需要注意

在HBase中,定位一条数据(即一个Cell)需要4个维度的限定:行键(RowKey)、列族(Column Family)、列限定符(Column Qualifier)、时间戳(Timestamp)。其中,RowKey是最容易出现问题的。除了根据业务和查询需求来设计之外,还需要注意以下三点。1. 打散RowKeyHBase中的行是按照RowKey字典序排序的。这对Scan操作非常友好,因为RowKey相近的行总是存储在相近的位置,顺序读的效率比随机读要高。但是,如果大量的读写操作总是集中.

2020-09-21 13:17:04 232

原创 超实用Hadoop的Shuffle过程优化:map端,reduce端,网络IO以及常见参数配置

Shuffle功能强大,但是Shuffle过程中多次落盘操作以及网络IO,是导致MapReduce慢的主要原因,可以尝试从以下几个方面进行优化:1、Map阶段(1)增大环形缓冲区大小。由100m扩大到200m(2)增大环形缓冲区溢写的比例。由80%扩大到90%(3)减少对溢写文件的merge次数。(10个文件,一次20个merge)(4)不影响实际业务的前提下,采用Combiner提前合并,减少 I/O。2、Reduce阶段(1)合理设置Map和Reduce数:两个都不能设置太少

2020-09-06 17:34:00 526

原创 Win10图片查看器太慢,怎么默认用Windows照片查看程序提高打开图片速度

Windows10中已经使用了新版的图片程序,虽然功能强大但是打开很慢,并且使用并不方便,完全不如之前的“Windows照片查看程序”简捷方便。但windows10中并不能直接找到照片查看程序,那我们在windows10要怎么恢复默认为照片查看程序呢?实际上并不难,跟我操作吧。第一步:复制以下内容到记事本: @echo off&cd\&color 0a&cls echo 恢复Win10照片查看器 reg add "HKLM\SOF..

2020-09-06 08:17:19 2002

原创 程序员代码面试指南:IT名企算法与数据结构题目最优解(第2版) 左程云

左神无敌,永远的神,评论有链接

2020-09-02 23:34:50 1688 19

原创 5000行代码入门mysql基础,10小时精通

---------------------------------------------------------------------------------------------------- 常见命令 -----------------------------------------------------------------------------------------------------------Microsoft Windows [版本 6.1.7600]版权所有 (c

2020-09-02 15:15:28 11180

原创 linux 为什么要关闭防火墙selinux,Linux下的防火墙用什么命令打开?

一、SELinux是什么?SELinux是一个复杂的安全子bai系统,它可以控制程du序只访问一定数量的文zhi件,使用学位设置工具进入对角dao化关闭。二、linux 为什么要关闭防火墙selinux?一般安装linux课程时都把SELinux与iptables安排在后面,使初学者配置linux服务器时不成功,却没有头绪,那是因为在RedHat linux操作系统中默认开启了防火墙,SELinux也处于启动状态,一般状态为enforing。致使很多服务端口默认是关闭的。所以好多服务初学者明明配

2020-08-30 15:50:11 3445 1

转载 Delta Lake:高效事务表(ACID Table)进行云对象存储(overCloud Object Stores)

【本文转载自过往记忆:方便日后不输验证码学习】最近,数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores》的论文,并且被 VLDB 收录了,这是第一篇比较系统介绍数砖开发Delta Lake的论文。随着云对象存储(Cloud object stores)的普及,因为其廉价的成本,越来越多的企业都选择对象存储作为其海量数据的存储引擎。但是由于对象存储的特点,其主要有两个比..

2020-08-27 21:10:17 942

转载 程序员必读书籍——成为大神

很多程序员响应,他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单,不过都是推荐数 Top 10的书。其实除了前10本之外,推荐数前30左右的书籍都算经典,笔者整理编译这个问答贴,同时摘译部分推荐人的评语。下面就按照各本书的推荐数排列。1. 《代码大全》史蒂夫·迈克康奈尔推荐数:1684“优秀的编程实践的百科全书,《代码大全》注重个人技术,其中所有东西加起来,就是我们本能所说的“编写整洁的代码”。这本书有50页在谈论代码布局。” —— Joel Spolsky对于新手来说,这.

2020-08-26 17:42:17 235

原创 Flume参数调优

一、Flume事务1.事务机制Flume的事务机制(类似数据库的事务机制):Flume使用两个独立的事务分别负责从Soucrce到Channel,以及从Channel到Sink的事件传递。比如spooling directory source 为文件的每一行创建一个事件,一旦事务中所有的事件全部传递到Channel且提交成功,那么Soucrce就将该文件标记为完成。同理,事务以类似的方式处理从Channel到Sink的传递过程,如果因为某种原因使得事件无法记录,那么事务将会回滚。且所有的事件都会

2020-08-26 13:53:17 855

原创 在linux中命令后面带参数“-”与“--”的区别

第一种:参数用一bai横的说明后面的参数是字符形式。du第二种:参数用两横的zhi说明后面的参数是单词dao形式。第三种:参数前有横的是 System V风格。第四种:参数前没有横的是 BSD风格。有关System V和BSD的其他区别:系统启动过程中 kernel 最后一步调用的是 init 程序,init 程序的执行有两种风格,即 System V 和 BSD。System V 风格中 init 调用 /etc/inittab,BSD 风格调用 /etc/rc,它们的目的相同,都是根据

2020-08-25 23:07:20 5349

原创 Flume数据流监控--Ganglia

前言:Ganglia监控Flume比较鸡肋,花里花哨,页面也不好看,确实监控不到什么内容,因为根据Flume的架构原理,Flume是不可能丢失数据的,其内部有完善的事务机制,Source到Channel是事务性的,Channel到Sink是事务性的,因此这两个环节不会出现数据的丢失,唯一可能丢失数据的情况是Channel采用memoryChannel,agent宕机导致数据丢失,或者Channel存储数据已满,导致Source不再写入,未写入的数据丢失。Flume不会丢失数据,但是有可能造成数据的重复,

2020-08-25 20:09:36 399 2

原创 一文详解、解决IDEA中Maven工程中没有src、targe、new时没有class等

今天在IDEA中新建了一个maven工程,发现没有src、targe等以及新建Class时发件右键菜单里竟然没有Java Class选项!解决方法一:点击右键->Mark Directory as Sources Root,可以出现,但是当刷新Maven依赖时src、targe又会消失,这个方法不好。解决方法二:下图这个位置改为project,但是发现目录结构是出现了,但是发现不能new packages 或者 new class等,不行。解决方法三:找了一个小时,终于找到了正确的

2020-08-21 15:04:29 1476

原创 一文秒懂Hive的两个组件Hiveserver2和Metastore server访问元数据的关系?及Cli命令行和beeline的关系

Hive不是数据库,不是数据库,不是数据库!一、Hive架构原理1)用户接口:ClientCLI(command-lineinterface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive)2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore3)Hadoop使.

2020-08-17 21:11:19 5952 1

原创 Hadoop - MapRedcue支持的压缩编码、压缩方式选择、压缩位置选择及参数配置

一、为什么要使用压缩?压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没.

2020-08-14 20:49:54 405

原创 Hadoop小文件优化方法

一、Hadoop小文件弊端大象怕老鼠,Hadoop怕小文件。HDFS怕小文件:HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。【一般企业NN的内存为128GB,你觉得每次存1kb的文件合适吗?】MR怕小文件:小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理

2020-08-14 20:12:52 228

原创 MapReduce优化方法

一、MapReduce跑得慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络。 就如百度能通过增加服务器解决问题,绝对不麻烦程序猿,真好用的就是提升服务器性能,有钱可以用量子计算机、银河超算。2.I/O操作优化避免大量磁盘I/O以及网络I/O1)数据倾斜2)Map和Reduce数设置不合理3)Map运行时间太长,导致Reduce等待过久4)小文件过多。 Hadoop怕小不怕大,如不进行处理,每个小文件都会启动一个MapTask,申

2020-08-14 19:42:13 1060

原创 Hadoop - MapReduce - YARN常用调优参数

一、MapReduce跑得慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络。 就如百度能通过增加服务器解决问题,绝对不麻烦程序猿,真好用的就是提升服务器性能,有钱可以用量子计算机、银河超算。2.I/O操作优化避免大量磁盘I/O以及网络I/O1)数据倾斜2)Map和Reduce数设置不合理3)Map运行时间太长,导致Reduce等待过久4)小文件过多。 Hadoop怕小不怕大,如不进行处理,每个小文件都会启动一个MapTask,申

2020-08-14 19:10:28 258

原创 HDFS的产生背景、储存的优缺点及组成架构

一、HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。二、HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入

2020-08-10 08:47:34 665

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除