- 博客(25)
- 资源 (5)
- 收藏
- 关注
原创 Hive压缩详解
Hadoop源码编译支持Snappy压缩资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题jar包准备(hadoop源码、JDK8 、maven、protobuf)hadoop-2.7.2-src.tar.gzjdk-8u144-linux-x64.tar.gzsn...
2020-05-30 08:56:24 925
原创 Hive内置函数和自定义函数详解
系统内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;自定义函数Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩...
2020-05-29 08:34:04 414
原创 Hive其他常用详细查询函数
空字段赋值函数说明NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果两个参数都为NULL ,则返回NULL。数据准备:采用员工表查询:如果员工的comm为NULL,则用-1代替hive (default)> select ...
2020-05-28 08:38:18 285
原创 Hive分桶及抽样查询详解
分桶表数据存储分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径;分桶针对的是数据文件。先创建分桶表,通过直接导入数据文件的方式数据准备1001 ss11002 ss21003 ss3...
2020-05-27 09:19:15 653
原创 Hive排序详细案例
全局排序(Order By)Order By:全局排序,只有一个Reducer使用 ORDER BY 子句排序ASC(ascend): 升序(默认)DESC(descend): 降序ORDER BY 子句在SELECT语句的结尾案例实操查询员工信息按工资升序排列hive (default)> select * from emp order by sal;查询员工信...
2020-05-26 08:47:04 448
原创 HiveJoin语句
等值JoinHive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。案例实操根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno;...
2020-05-25 08:21:15 803
原创 HiveWhere语句及分组
Where语句使用WHERE子句,将不满足条件的行过滤掉WHERE子句紧随FROM子句案例实操查询出薪水大于1000的所有员工hive (default)> select * from emp where sal >1000;注意:where子句中不能使用字段别名。比较运算符(Between/In/ Is Null)下面表中描述了谓词操作符,这些操作符同样可以用于...
2020-05-23 08:44:32 578
原创 Hive基本查询(Select…From)
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL ...
2020-05-22 08:24:49 1763
原创 HiveDDL数据定义---修改删除表
修改表重命名表语法ALTER TABLE table_name RENAME TO new_table_name实操案例hive (default)> alter table dept_partition2 rename to dept_partition3;增加/修改/替换列信息语法更新列ALTER TABLE table_name CHANGE [COLUMN] c...
2020-05-21 08:37:26 173
原创 HiveDML数据操作--数据导入导出
数据导入向表中装载数据(Load)语法hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];load data:表示加载数据local:表示从本地加载数据到hive表;否则从HDFS加载...
2020-05-20 08:55:09 236
原创 HiveDDL数据定义---分区表
分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多分区表基本操作引入分区表(需要根据日期对日志进行管理)/user/hive/warehouse/log_partition/20...
2020-05-19 08:33:34 230 1
原创 HiveDDL数据定义---创建表
创建表建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)][...
2020-05-18 08:37:28 244
原创 HiveDDL数据定义---数据库操作
创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/wareh...
2020-05-15 08:57:15 204
原创 Hive详细数据类型
基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者false数TRUE FALSEFL...
2020-05-14 08:35:16 590
原创 Hive常见属性详细配置
Hive数据仓库位置配置Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下。在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。修改default数据仓库原始位置(将hive-default.xml.template如下配置信息拷贝到hive-site.xml文件中...
2020-05-13 08:36:30 410
原创 Hive常用详细命令
Hive常用交互命令[liujh@hadoop102 hive]$ bin/hive -helpusage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or -...
2020-05-12 08:29:16 389
原创 Hive超详细元数据配置到MySql
MySql安装查看mysql是否安装,如果安装了,卸载mysql查看[root@hadoop102 桌面]# rpm -qa|grep mysqlmysql-libs-5.1.73-7.el6.x86_64卸载[root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_64安装mysql服务端安装mysq...
2020-05-11 08:33:52 353 1
原创 Hive详细安装
Hive安装地址Hive官网地址 http://hive.apache.org/文档查看地址 https://cwiki.apache.org/confluence/display/Hive/GettingStarted下载地址 http://archive.apache.org/dist/hive/github地址 https://github.com/apache/hiveHiv...
2020-05-09 09:16:16 228
原创 Hive详细基本概念
什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上Hive的优点操作接口采用类SQL语...
2020-05-09 09:15:24 414
原创 hadoop之HDFS HA高可用---HDFS Federation架构设计
NameNode架构的局限性Namespace(命名空间)的限制由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿(200million)个对象,这20亿个对象支持4000个DataNode,12PB的存储(假设文件平均大小为40MB)...
2020-05-08 09:03:49 235
原创 hadoop之HDFS HA高可用---YARN-HA配置
YARN-HA工作机制官方文档:http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.htmlYARN-HA工作机制配置YARN-HA集群环境准备修改IP修改主机名及主机名和IP地址的映射关闭防火墙ssh免密登录安装JDK,配置环境变量等配置Zookeep...
2020-05-07 09:36:42 279
原创 hadoop之HDFS HA高可用---HDFS-HA集群配置
配置HDFS-HA集群官方地址:http://hadoop.apache.org/在opt目录下创建一个ha文件夹mkdir ha将/opt/app/下的 hadoop-2.7.2拷贝到/opt/ha目录下cp -r hadoop-2.7.2/ /opt/ha/配置hadoop-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_1...
2020-05-07 09:35:59 682
原创 hadoop之HDFS HA高可用---HDFS-HA集群配置前期准备
环境准备修改IP修改主机名及主机名和IP地址的映射关闭防火墙ssh免密登录安装JDK,配置环境变量等规划集群hadoop102hadoop103hadoop104NameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZKZKZK...
2020-05-06 08:36:38 242
原创 hadoop之HDFS HA高可用---HA工作机制
HA概述所谓HA(High Available),即高可用(7*24小时不中断服务)。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管...
2020-05-06 08:36:20 204
原创 Zookeeper超详细内部原理
节点类型持久化目录节点客户端与Zookeeper断开连接后,该节点依旧存在持久化顺序编号目录节点客户端与Zookeeper断开连接后,该节点依旧存在,只是Zookeeper给该节点名称进行顺序编号临时目录节点客户端与Zookeeper断开连接后,该节点被删除临时顺序编号目录节点客户端与Zookeeper断开连接后,该节点被删除,只是Zookeeper给该节点名称进行顺序编号。...
2020-05-01 09:53:49 1176
嵌入式技术之STM32单片机测试程序-stlink驱动-烧写器固件升级-工具-STM32开发板验证流程
2024-09-09
嵌入式技术之STM32单片机stm32 标准库-stm32-hal 离线芯片支持包-调试工具-arm5-compiler
2024-09-09
settings.xml
2020-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人