![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 51
宝罗
这个作者很懒,什么都没留下…
展开
-
Teradata数据库使用笔记(1)--Teradata安装
Teradata数据库使用笔记(1)--Teradata安装_肆尾葱的博客-CSDN博客_teradata数据库安装 Teradata使用笔记(2)--数据库操作_肆尾葱的博客-CSDN博客_teradata使用教程原创 2022-02-28 11:21:56 · 1188 阅读 · 0 评论 -
hive四种存储格式和排序方式介绍与分析比较
1、TextFile TextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。 2、RCFile Record Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常 写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。 RCFile是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读 取多个block。其次,块数据列式存原创 2022-02-07 23:40:48 · 394 阅读 · 0 评论 -
hive分区表
首先有这样的一张csv数据表 名称叫做test.csv 将test.csv上传至hdfs 然后在zeppelin中创建一张分区表 create table exam.userbehavior_partitioned( user_id string, item_id string, category_id string, behavior_type string, time string ) partitioned by (dt st.原创 2021-12-21 20:22:02 · 1119 阅读 · 0 评论 -
hive 数据仓库跟mysql数据库的区别
1、查询语言不同:hive是hql语言,mysql是sql语句; 2、数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中; 3、数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式; 4、数据更新:hive不支持数据更新,只可以读,不可以写,而sql支持数据更新; 5、索引:hive没有索引,因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍,也造成了hive查询数据速度很慢的原因,而mysql有索引; 6、延迟性:hive原创 2021-12-21 20:08:12 · 1186 阅读 · 0 评论 -
spark-hdfs-hive-hbase
打开虚拟机 首先确保虚拟机上安装了hadoop spark hive hbase 然后依次启动 启动hbase 首先先确保 先启动zekooper hadoop启动命令 start-all.sh hive 启动 hive --service hiveserver2 & 后台启动 不想后台的话就不用加& zkserve.sh start 启动zekooper hbase start-hbase.sh hive --service metastroe 启动spark ...原创 2021-12-21 08:38:49 · 1690 阅读 · 2 评论 -
hive on spark
前置准备 CentOS7、jdk1.8、hive-2.3.9、hadoop-2.7.7、spark-2.0.0-bin-hadoop2-without-hive 首先先配置maven Index of /dist/maven/maven-3 下载maven我下的是3.6.0版本 至少要3.1.3以上才能编译 同样解压到soft目录下 配置环境变量 spark底层用的还是scala代码 所以顺便装上了scala 后来好像用不到scala所以可以不用装 vi /etc/profile .原创 2021-12-08 01:19:14 · 318 阅读 · 0 评论 -
hive 的数据倾斜
1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、容易数据倾斜情况 A、group by 不和聚集函数搭配使用的时候 B、count(distinct),在数据量大的情况下,容易数据倾斜,因为 count(distinct)是按 gro原创 2021-09-22 10:45:00 · 90 阅读 · 0 评论