自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (4)
  • 收藏
  • 关注

原创 hive排序

1.全局排序(Order By)Order By:全局排序,一个ReducerASC(ascend):升序(默认)DESC(descend):降序Order By子句在SELECT语句的结尾案例实操(1)查询员工信息按工资升序排列hive (default)> select * from emp order by sal;(2)查询员工信息按工资降序排列hive (default)> select * from emp order by sal desc;2.按照别名排序

2021-05-18 23:03:50 206

原创 连接谓词中不支持or

案例实操hive (default)> select > e.empno, > e.ename, > d.deptno > from > emp e > join > dept d > on > e.deptno=d.deptno or e.ename=d.dname;FAILED: SemanticException [Error 10019]: Line 10:3 OR notsupported in JOIN curr

2021-05-18 22:48:30 572

原创 笛卡尔积

1.产生条件(1)省略连接条件(2)连接条件无效(3)所有表中的所有行相互连接案例实操hive (default)> select empno, dname from emp, dept;

2021-05-18 22:46:49 111

原创 多表连接查询

hive (default)>SELECT e.ename, d.deptno, l.loc_nameFROM emp eJOIN dept dON d.deptno = e.deptnoJOIN location lON d.loc = l.loc;大多数情况下,Hive 会对每对 JOIN 连接对象启动一个 MapReduce 任务。本例中会首先启动一个 MapReduce job 对表 e 和表 d 进行连接操作,然后会再启动一个 MapReduce job将第一个 MapRedu

2021-05-18 22:42:25 99

原创 Having 语句

1.having 与 where 不同点(1)where 针对表中的列发挥作用,查询数据;having 针对查询结果中的列发挥作用,筛选数据。(2)where 后面不能写聚合函数,而 having 后面可以使用聚合函数。(3)having 只用于 group by 分组统计语句。...

2021-05-09 23:41:28 453

原创 hive导入/导出实操案例

Import 数据到指定 Hive 表中注意:先用 export 导出后,再将数据导入。hive (default)> import table student2 partition(month='201709')from '/user/hive/warehouse/export/student';2.数据导出Insert 导出(1)将查询的结果导出到本地hive (default)> insert overwrite local directory'/opt/module/.

2021-05-09 23:28:38 101

原创 Hive数据类型

1.基本数据类型对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。2.集合数据类型Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的Array 和 Map 类似,而 STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。3.类型转化Hive 的原子数据

2021-05-09 23:17:50 141

原创 Hive常见属性配置

Hive数据仓库位置配置1)Default 数据仓库的最原始位置是在 hdfs 上的:/user/hive/warehouse 路径下。2)在仓库目录下,没有对默认的数据库 default 创建文件夹。如果某张表属于 default数据库,直接在数据仓库目录下创建一个文件夹。3)修改 default 数据仓库原始位置(将 hive-default.xml.template 如下配置信息拷贝到hive-site.xml 文件中)。<property><name>hiv.

2021-05-09 23:02:01 124

原创 Hive常用交互命令

查看交互命令方法:[hadoop@hadoop102 hive]$ bin/hive -help1.“-e”不进入 hive 的交互窗口执行 sql 语句[hadoop@hadoop102 hive]$ bin/hive -e "select id from student;"2.“-f”执行脚本中 sql 语句[hadoop@hadoop102 datas]$ touch hivef.sql文件中写入正确的 sql 语句select * from student;(2)执行文件中的

2021-05-09 22:46:49 95

原创 启动 hive产生 java.sql.SQLException 异常问题

Exception in thread “main” java.lang.RuntimeException:java.lang.RuntimeException:Unable to instantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientatorg.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)atorg.a

2021-05-09 22:38:13 849

原创 Hive 和数据库区别

1.由于 Hive 采用了类似 SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本节将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是 Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。2.Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据

2021-05-09 22:35:39 353

原创 修改表及实操案例

1.修改表名(1)语法ALTER TABLE table_name RENAME TO new_table_name(2)实操案例hive (default)> alter table dept_partition2 rename todept_partition3;2.增加、修改、替换列信息(1)语法更新列ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_namecolumn_type [COMMENT c

2021-05-09 00:26:26 108

原创 分区表及实战

概念:分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。分区基本操作实战1.创建分区表语法hive (default)> create table dept_partition(deptno int, dname string, loc string)partitioned b

2021-05-09 00:18:02 180

原创 内部表和外部表区别

1.Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。2.在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。...

2021-05-08 23:12:53 8944

原创 480000 millis timeout while waiting for channel to be ready for write异常处理

2014-08-25 15:35:05,691 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.130.136.136:50010, storageID=DS-1533727399-10.130.136.136-50010-1388038551296, infoPort=50075, ipcPort=50020):DataXceiverjava.net.SocketTimeoutException

2021-05-07 10:33:23 599

griffin安装文档

griffin安装文档及问题解决

2021-08-10

数据分析专题.docx

数据分析师日常工作 专题分析步骤 流量分析 路径分析 竞品分析 sql常见问题 临时需求处理

2020-09-17

hadoop高可用集群搭建手册.docx

hadoop2.6集群搭建手册,搭建的详细步骤,各种参数配置,配置文件配置,并对搭建的平台进行验证。

2020-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除