- 博客(10)
- 收藏
- 关注
原创 数仓工具hive(六):Hive中常用函数汇总
常用日期函数unix_timestamp:返回当前或指定时间的时间戳 from_uni xtime:将时间戳转为日期格式current_date:当前日期current_timestamp:当前的日期加时间to_date:抽取日期部分year:获取年month:获取月day:获取日hour:获取时minute:获取分second:获取秒weekofyear:当前时间是一年中的第几周dayofmonth:当前时间是一个月中的第几天months_between: 两个日期间的月
2020-05-18 11:31:31 401
原创 数仓工具hive(四):Hive文件存储格式以及优缺点
前言Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。行与列存储的特点行存储的特点查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。列存储的特点因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。Hive文件存储格式以及优缺
2020-05-18 11:28:36 1862
原创 数仓工具hive(二):安装部署
Hive安装地址Hive官网地址文档查看地址下载地址Hive安装部署Hive安装及配置把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面[root@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/修改apache-hive-1.
2020-05-18 11:27:13 278
原创 详解JPS命令
前言jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。unix的ps命令用过unix系统里的ps命令,这个命令主要是用来显示当前系统的进程情况,有哪些进程,及其 id。jps也是一样,它的作用是显示当...
2020-04-30 11:53:18 614
原创 使用Sqoop导Mysql数据到Hbase报错
报错日志20/04/14 16:40:45 WARN mapreduce.HBaseImportJob: Could not find HBase table hbase_company20/04/14 16:40:45 WARN mapreduce.HBaseImportJob: This job may fail. Either explicitly create the table,2...
2020-04-14 19:10:12 656
原创 大数据生态Hadoop(三):官方wordcount案例
hadoop官方wordcount示例提供版本JDK1.8+Hadoop2.7.2在hadoop-2.7.2文件下面创建一个input文件夹[root@hadoop101 hadoop-2.7.2]$mkdir input在wcinput文件下创建一个wc.input文件[root@hadoop101 hadoop-2.7.2]cd input[root@hadoop101 inpu...
2020-04-01 15:38:09 254
原创 数仓工具Hive(一):起源
what is hive官方文档The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data ...
2020-03-31 09:08:53 206
原创 大数据生态Hadoop(一):起源
What is Hadoop官方文档The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.释义Apache™Hadoop®项目开发用于可靠、可伸缩的分布式计算的开源软件。广义广义上来说,Hadoop通常是指一个更广泛的概念——Had...
2020-03-24 14:10:39 161
原创 Ambari+HDP安装的Hive出现中文乱码解决
1 Hive注释comment出现乱码1.1 Hive建表语句create table test.mytest_tm1( id int comment'编号', name string comment '名字' )row format delimited fields terminated by '\u00...
2020-03-19 17:39:28 486
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人