![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
hive
文章平均质量分 87
hive相关
ingha
这个作者很懒,什么都没留下…
展开
-
04 hive基础操作
create [external] table [if not exists] 表名(字段名 字段类型 , 字段名 字段类型 , ... )[partitioned by (分区字段名 分区字段类型)] # 分区表固定格式[clustered by (分桶字段名) into 桶个数 buckets] # 分桶表固定格式 注意: 可以排序[sorted by (排序字段名 asc|desc)]原创 2023-11-14 10:37:20 · 64 阅读 · 0 评论 -
02 hive 启动
在profile文件末尾添加(小技巧G+o快速定位到最后)注意:配置前最好拍快照。原创 2023-11-12 12:04:23 · 42 阅读 · 1 评论 -
01 hadoop 概念
hadoop是什么hadoop是一个由Apache基金会所开发的分布式系统基础框架,可以部署在大规模集群的集分布式数据存储、分布式数据计算、分布式资源调度为一体的整体解决方案。hadoop的起源起源Doug Cutting开创的一个解决存储数据困难,检索速度慢的Nutch项目。Google在大数据方面的三篇论文加速了hadoop项目的发展:《The Google file system》谷歌分布式文件系统GFS-> HDFS。原创 2023-11-11 22:33:46 · 55 阅读 · 1 评论 -
03 hdfs 文件操作(导入/导出)
目录的绝对路径创建目录: hdfs dfs -mkdir 目录的绝对路径创建文件: hdfs dfs -touch 文件的绝对路径移动目录/文件: hdfs dfs -mv 要移动的目录或者文件的绝对路径 目标位置绝对路径复制目录/文件: hdfs dfs -cp 要复制的目录或者文件的绝对路径 目标位置绝对路径删除目录/文件: hdfs dfs -rm [-r] 要删除的目录或者文件的绝对路径。原创 2023-11-14 09:27:52 · 778 阅读 · 0 评论 -
05 hive 内部表与外部表
外部表无法使用truncate语句清空列表,drop只能删除元数据,HDFS中仍可访问文件,可使用location重新对原地址数据进行关联。四是删除的区别:外部表无法使用truncate语句清空表内数据,只能使用drop删除表元数据,而内部表使用drop会删除元数据与业务数据。注意: 删除内部表效果是mysql中表相关元数据被删除,同时存储在hdfs中的业务数据本身也被删除。一是管理范围的区别:内部表对元数据和表数据有绝对管理权,外部表只对元数据有管理权,字段名 字段类型 , …原创 2023-11-15 22:23:53 · 40 阅读 · 1 评论 -
hive 调优
1.hive数据压缩压缩对比开启map端的压缩2.hive数据存储行列存储原理存储压缩比拓展dfs -du -h3. fetch抓取4. local本地模式(默认关闭)5. join的优化操作6. SQL优化之列裁剪7. SQL优化之分区裁剪8. SQL优化之group by 操作9. SQL优化之count(distinct)10. SQL优化之笛卡尔积11. 动态分区12.MapReduce并行度调整(调整map和reduce的数量)13.并行执行(默认关闭)原创 2023-11-18 16:17:56 · 230 阅读 · 1 评论 -
06 分区表和分桶表
当Hive表对应HDFS中数据量大、文件多时,为了避免查询时全表扫描数据,Hive支持根据用户指定的字段进行分区,分区的字段可以是日期、地域、种类等具有标识意义的字段。比如把一整年的数据根据月份划分12个月(12个分区),后续就可以查询指定月份分区的数据,尽可能避免了全表扫描查询。现在需要将表A的月分区 202309 中user_id为20000的user_dinner字段更新为bonc8920 ,其他用户user_dinner字段数据不变 ,请列出更新的方法步骤。是一种用于优化查询而设计的表类型。原创 2023-11-16 16:43:57 · 69 阅读 · 1 评论