大数据hive
文章平均质量分 95
hive的基本语法
30+11
大数据小白
展开
-
教育项目实战
大数据的发行版本, 主要有三个发行版本: Apache 官方社区版本, cloudera 推出CDH商业版本, Hortworks推出的HDP商业免费版本, 目前HDP版本已经被cloudera 收购了Apache版本Hadoop生态圈组件的优点和弊端:完全开源,更新速度很快大数据组件在部署过程中可以深刻了解其底层原理可以了解各个组件的依赖关系缺点部署过程极其复杂,超过20个节点的时候,手动部署已经超级累各个组件部署完成后,各个为政,没有统一化管理界面。原创 2024-10-08 17:56:12 · 848 阅读 · 0 评论 -
hiveSQL语法
分桶就是将这个128M的文件拆分成多个文件来存储,例如拆分成四个桶文件,那么计算的时候就会有4个reduce参与数据的计算和整合,那么数据的计算速度就会变快。直接创建表格,指定了对应的目录,也读取不到数据,因为表格是个分区表,只有表格的结构,没有分区的结构。假如有一个表格,只有一个文件,文件是128M,计算的时候将这个文件当成一个整体,使用一个map和一个reduce进行数据统计的;hive数据库所有的sql操作都是高延迟的,如果操作的数据量小于128M,那么我们可以去启动本地设置的开关,加快数据的操作。原创 2024-10-08 17:54:30 · 978 阅读 · 0 评论