Hive
湖中屋
数据挖掘、大数据架构师,多年大数据开发经验。控制工程专业硕士研究生学历。
展开
-
Hive 数仓工具(5) 行转列 列转行 字符串拼接 窗口函数 数字编号函数 案例
行转列函数实现字符串拼接 concat() concat_ws(参数1(分隔符), str1, str2) 可指定分隔符select concat(“haha”, “–”, “ll”, “–”, “tom”);select concat(ename) from tb_emp; (函数是每行执行一次)select concat(ename, “:”, job) from tb_emp;select concat_ws ("_", “tom”, “cate”, “jim”)cast(变量 AS原创 2020-06-23 23:10:42 · 628 阅读 · 0 评论 -
Hive 数仓工具(4) 动态分区 分桶表 排序(分区,分桶) case when if show functions with 语法 集合数据类型 窗口函数 案例
动态分区按照某个字段的值的内容将数据分文件夹管理 方便按照这个维度查询1数据 2建表 3导入数据 4创建分区表 5开始动态设置 6向动态分区表中导入数据0数据cd /hive/datavi user.txtu001 zss 23 M beijiingu002 yhh 23 M nanjingu003 lss 43 M beijiingu004 zy 23 M beijiingu005 zm 23 M beijiingu006 cl 23 M dongjingu007 lx 23 M原创 2020-06-21 23:17:37 · 321 阅读 · 0 评论 -
Hive 数仓工具(3) 插入加载导入导出数据 分区表操作 表的修改操作 查询 对null处理 基础语法 关联查询 二级分区 where group by having order limit
编程 -->数据 + 运算(JAVA SQL)hive:数据查看工具,不是数据库 服务(HQL -->MR)核心组件数据(结构,位置) -->hdfs表(结构 数据类型) 元数据 -->mysql插入数据 insert方式1建表2插入数据每次insert会在hdfs中生成一个小文件insert into tb_xxxx values(1,“zss”) insert into tb_xxx values(1, “lss”),(2,“ls”)…;将后面的selec原创 2020-06-21 21:17:08 · 259 阅读 · 0 评论 -
Hive 数仓工具(2) 启动 连接 数据库操作 hive数据类型 建表语法 数据导入 内部表 外部表
8启动hivebin/hiveshow databases;create database db_xxxx;create table a(id int, name string);show tables;9第二种连接方式 (hiveserver2服务:beeline JDBC连接)1)hiveserver2 & -->netstat -nltp |grep 100002)beeline!connect jdbc:hive2://linux201:10000root(当前用户原创 2020-06-20 20:29:46 · 358 阅读 · 0 评论 -
Hive 数仓工具(1) DataWareHours 基础 原理 安装 配置
数据仓库 DW Data WareHoursHIVE是一个数仓工具,用来数据提取,转化,加载,是一种可以存储,查询和分析存储在hadoop中的大规模数据的机制hive数据仓库工具能够将结构化的数据文件映射成数据库表,并提供sql查询功能,能够将SQL语句转变成MapReduce任务来执行 处理HDFS中结构化的静态数据 通过MapReduce程序在YARN(分布式资源调度平台和任务划分平台)平台上处理,一般将处理的结果放到HDFS上(开发成本高,周期长)Hive SQL-->...原创 2020-06-19 01:27:39 · 268 阅读 · 0 评论