自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 hive函数

一、关系运算:等值比较: =语法:A=B操作类型:所有基本类型描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE不等值比较: <>语法: A <> B操作类型:所有基本类型描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为FALSE3.小于比较: <语法: A < B操作类型:所有基本类型描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果

2020-12-18 14:36:53 146

原创 面试题

面试题:1.hive和HBase有什么区别?Hive的定位是数据仓库,虽然也有增删改查,但其删改查对应的是整张表而不是单行数据,查询的延迟较高。其本质是更加方便的使用mr的威力来进行离线分析的一个数据分析工具。HBase的定位是hadoop的数据库,是一个典型的Nosql,所以HBase是用来在大量数据中进行低延迟的随机查询的。2.hive 特点?(1).可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务(2).延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己

2020-07-28 11:12:23 868

原创 2019年12

2019年12月13日 笔记 Linux1、磁盘分区类1、df 查看磁盘空间的使用情况df (disk free):空余硬盘基本语法:df 选项功能描述:列出文件系统的整体磁盘使用量,检查文件系统的磁盘空间占用情况选项说明:选项 功能-h 以人们较易阅读的 GBytes, MBytes, KBytes 等格式自行显示;查看磁盘的使用情况:[root@jinghang ...

2020-07-28 10:19:36 625

原创 作业

1.简单描述你对Hadoop集群SafeMode模式的理解?集群处于安全模式,属于只读状态,可读不可写,只保证hdfs元数据信息的访问,不保证文件的访问,想要执行可写操作,要离开安全模式。集群启动完成后,自动退出安全模式命令:Bin/hdfs dfsadmin - safemode get 查看安全模式状态Bin/hdfs dfsadmin - safemode enter 进入安全模式...

2020-01-01 21:26:17 267

原创 MapReduce(3)

自定义InputFormat自定义步骤:1、自定义一个类继承FileInputFormat2、改写recurdReader,实现一次读取一个完整文件放置为ky3、在输出时使用SequenceFileOutputFomat输出合并文件无论HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义InputFormat...

2019-12-29 20:21:02 434

原创 hadoop(hdfs)

3.hdfs的文件的上传、下载流程上传流程:1、client上传文件到hdfs,发出上传请求2、Namenode首先往edits中记录元数据操作日志,并返回元数据信息给client(即分成多少block,不同block放在哪些datanode上)3、client根据namenode返回的信息,对文件进行切分,写入到datanode中4、datanode再将block复制到其他datano...

2019-12-24 20:31:30 131

原创 hdoop(mapReduce)

Hadoop(MapReduce)MapReduce定义:是一个分布式运算程序的编程框架,是用户开发”基于hadoop的数据分析应用”的核心框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在hadoop集群上。优点:1、易于编程它简单实现一些接口,就可以完成一个分布式程序,这个分布式可以分布到大量廉价的pc机器上运行2、良好的扩展性当计算...

2019-12-24 20:27:43 185

原创 Hadoop3

Hadoop(3)配置文件说明Hadoop配置文件分为两类:默认配置文件、自定义配置文件(1)默认配置文件:要获取的默认文件 文件存放在Hadoop的jar包中的位置[core-default.xml] Hadoop-common-2.7.2.jar/core-default.xml[hdfs-default.xml] Hadoop-hadoop-2.7.2.jar/hdfs-defa...

2019-12-20 22:21:44 253

原创 hadoop(2)

2019年12月18日 Hadoop(2)Hadoop运行模式:本地模式伪模式完全分布式模式Hadoop官方网站:http://hadoop.apache.org /本地模式配置本地模式:进入opt文件夹下的module下(因为Hadoop放在里面)[jinghang@hadoop ~]$ cd /opt/module进入module下的Hadoop-2.7.2的文件夹[j...

2019-12-18 20:53:59 132

原创 Hadoop

2019年12月17日 Hadoop (入门)大数据概念:大数据(Big Data):值无法在一定时间范围内常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产主要解决:海量数据存储(HDFS)海量数据分析计算(MapReduce)统一资源管理调度(YARN)数据存储单位(小到大):bit、Byte、...

2019-12-17 22:30:51 154

原创 shell

2019年12月16日shell 笔记一、Shell中的数组创建数组:空数据: arr=()Shell 数组用括号表示,元素用”空格”分割开格式:非空数据: arr=(1 2 3 4) (带值;元素以空格分割)注意: 往数组里添加值,数组的长度自动增长实例:创建空数据:[heyali@jinghang ~]$ arr=()创建非空数据:直接赋值第一种:[heyali@ji...

2019-12-16 22:58:43 487

原创 shell

2019年12月14日 shell 笔记编译语言分类1、编译语言执行之前需要专门的编译过程,运行时不需要编译,执行效率高、依赖编译器、跨平台性差(例:c c++)2、解释语言程序不需要编译,程序运行时解释器翻译成机器语言,执行一次,翻译一次,效率低(例:Python、javaScript\shell)Shellshell是一个命令行解释器,接收应用程序、用户命令,然后调...

2019-12-14 17:19:31 109

原创 2019年12月13日

2019年12月13日 笔记 Linux1、磁盘分区类1、df 查看磁盘空间的使用情况df (disk free):空余硬盘基本语法:df 选项功能描述:列出文件系统的整体磁盘使用量,检查文件系统的磁盘空间占用情况选项说明:选项 功能-h 以人们较易阅读的 GBytes, MBytes, KBytes 等格式自行显示;查看磁盘的使用情况:[root@jinghang ...

2019-12-13 22:34:09 677

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除