大数据--hive
文章平均质量分 67
大数据中hive的原理及其hive的环境搭建及其使用
龙技术
一篇诗,一斗酒,一曲长歌,一剑天涯
展开
-
hive项目--新零售项目1(项目介绍与环境准备)
新零售项目 项目背景介绍、业务需求、虚拟机环境准备; 零售行业的发展历程 地摊、货郎 价格老板自己说了算 不稳定,流动性大 质量没有保障 种类少 百货商店 门店货物多 明码标价 随进随出 质量有所保证 超级市场 自选商品 购物效率 环境更好 商品的包装等,竞争更激烈,质量也更高 连锁门店 标准化管理,减少个人经验带来的损失 分工管理、提升了效率 供应链完备,进货成本更低 店面更方便 电商 没有地域限制 成本进一步降低(没有了租房费用) 促进实体店的改进 改变了零售行业的主体业务,原创 2021-11-14 21:57:05 · 824 阅读 · 0 评论 -
编写启动连接hiveserver2脚本
编写启动连接hiveserver2脚本: 进入环境变量目录: cd /bin 新建脚本文件: vim hiveserver echo =========== metastore ============ nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore & yes | command echo =========== hiveserver2 ========== nohup /export/serv原创 2021-10-19 11:39:32 · 246 阅读 · 0 评论 -
Hive存储格式及优化
Hive的数据存储格式 列式存储、行式存储 Hive中表的数据存储格式,不是只支持text文本格式,还支持其他很多格式。 建表的时候通过STORED AS 语法指定。如果没有指定默认都是textfile(行存储)。 Hive中主流的几种文件格式。 textfile 文件格式 ORC、Parquet 列式存储格式。 都是列式存储格式,底层是以二进制形式存储。数据存储效率极高,查询方便。 栗子 分别使用3种不同格式存储数据,去HDFS上查看底层文件存储空间的差异。 --1、创建原创 2021-10-19 15:24:43 · 341 阅读 · 0 评论 -
Hive
Hive 数据仓库 存储数据 关系型数据–sqoop,文件数据(日志,Excel,csv) datawarehouse–DW 主要使用数据仓库进行相应的业务数据分析 不生产数据,不消费数据 数仓特征 面向主题 确认分析场景 ,某个方向某个领域。 用户画像–基本信息(姓名,性别,年龄)用户行为(点击行为,浏览时间) 集成性 将所有相关数据,任何时间,任何类型,任何内容的数据收集在一起 非易失性 数据存储后不在改动,任何新的修改都会会以新文件的形式重新存储 时变性 会根据分析业务的原创 2021-10-19 15:19:24 · 88 阅读 · 0 评论 -
Hive--DQL操作
Hive–DQL 内置运算符 查看函数 show functions; desc functions extended +; 关系运算符 大小比较 select 1>1; select 1=1; select 1>=1; 空值判断 select 'asd' is null; select 'asd' is not null; 模糊查询 select 'itcast' like 'it____'; _代表匹配一个字符 select 'itcast' like 'it%';原创 2021-10-19 15:23:32 · 244 阅读 · 0 评论 -
Hive--DDL操作
Hive–DDL操作 hql语句形式 DDL 库、表、视图 创建修改删除 create、alter、drop DML 表的具体数据的事务操作 数据写入 数据的修改 数据的删除 DQL 数据查询 from、where、group by、having 、聚合、select、order by,limit DCL 权限控制 grant 用户创建修改 重点 创建数据操作和查询数据操作 HQL建表 基本建表语句 create table tb_name( id i原创 2021-10-19 15:20:32 · 469 阅读 · 0 评论