Hive
文章平均质量分 92
syc0616
这个作者很懒,什么都没留下…
展开
-
hive一些操作
建表语句:create external table `dic_list` ( dic_id string comment '代码集id', dic_cnname string comment '代码集中文名称', table_ele string comment '数据项', table_enname string comment '数据集英文名') comment '数据集码表引用记录'ROW FORMAT SERDE ...原创 2021-06-28 11:20:01 · 183 阅读 · 0 评论 -
HiveSQL面试
手写HQL 第1题表结构:uid,subject_id,score求:找出所有科目成绩都大于某一学科平均成绩的学生数据集如下1001 01 901001 02 901001 03 901002 01 851002 02 851002 03 701003 01 701003 02 701003 03 851)建表语句create table score( uid string, ...原创 2021-05-23 06:53:20 · 553 阅读 · 1 评论 -
Hive开启mapjoin优化、并行执行、动态分区
Hive开启mapjoin优化、并行执行、动态分区1.mapjoin优化适合小表join大表set hive.optimize.skewjoin=true; //有数据倾斜时开启负载均衡,默认falseset hive.auto.convert.join=true; //设置自动选择MapJoin,默认是trueset hive.auto.convert.join.noconditionaltask=true; //map-side joinset hive.auto.convert.jo.原创 2020-10-10 14:18:05 · 560 阅读 · 0 评论 -
种树问题
需求一1.蚂蚁森林植物申领统计问题:假设2017年1月1日开始记录低碳数据(user_low_carbon),假设2017年10月1日之前满足申领条件的用户都申领了一颗p004-胡杨,剩余的能量全部用来领取“p002-沙柳”。统计在10月1日累计申领“p002-沙柳”排名前10的用户信息;以及他比后一名多领了几颗沙柳。①统计用户在 2017-1-1 至 2017-10-1期间一共收集了多少碳量select user_id,sum(low_carbon) sumCarbonfro...原创 2020-09-23 22:33:13 · 310 阅读 · 0 评论 -
压缩和存储
Hadoop源码编译支持Snappy压缩资源准备1.CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2.jar包准备(hadoop源码、JDK8 、maven、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-linux-x64.tar.gz(3)snappy-1.1.3.tar.gz(4)apache-maven-3.原创 2020-09-17 23:53:00 · 650 阅读 · 0 评论 -
Hive DML数据操作
1.数据导入向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表(3)inpath:表示加载数据的路径(4)overwrite原创 2020-09-17 17:12:24 · 377 阅读 · 0 评论 -
Hive DDL操作
DDL数据定义创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) hive (default)> create database db_hive; FAILED: Execution Error, return code 1 from原创 2020-09-17 15:31:33 · 107 阅读 · 0 评论 -
Hive概述
一、Hive简介1. Hive是一个数据仓库软件Hive可以使用SQL来促进对已经存在在分布式设备中的数据进行读,写和管理等操作。Hive在使用时,需要对已经存储的数据进行结构的投影(映射)。Hive提供了一个命令行和JDBC的方式,让用户可以连接到hive。注:Hive只能处理结构化数据。Hive在Hadoop之上,使用hive的前提是先要安装Hadoop。2.Hive的特点①Hive不是一个关系型数据库;②不是基于OLTP(在线事务处理)设计;OLTP(在线事务处原创 2020-09-16 07:26:27 · 409 阅读 · 0 评论 -
Spark入hive表
遇到问题:1.写入HDFSgenerateActualKey 设置为NullWritablegenerateActualValue 返回value值设置输出文件名:generateFileNameForKeyValue设置目录可以覆盖模式checkOutputSpecs2.DataFrame转换为RDD时会有[];所以需要去掉;默认字段分割符为","3.hive创建表时要指定字段分割符和行分割符dingdang,love NULLxuejiao,love1312 ...原创 2020-09-01 11:29:11 · 180 阅读 · 0 评论