hive
大数据爱好者社区
关注博主个人微信公众号:bigdata_shequ,每天会更新大数据、人工智能前沿技术!
展开
-
大数据数据仓库——hive学习权威指南
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!学习hive权威指南目录:ETL介绍 大数据平台架构概述 系统数据流动 hive概述 hive在hadoop生态系统中 hive体系结构 hive安装及使用 hive客户端的基本语句 hive在HDFS文件系统中的结构 修改hive元数据储存的数据库 hive操作命令 ...原创 2018-05-09 10:21:48 · 4755 阅读 · 1 评论 -
hive中sql优化解决策略
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!Hive中的sql优化如果是按时间分区的表,查询时一定要使用分区限制,如果没有分区限制,会从该表的所有数据里面遍历。 注意sql中or的使用,or 这个逻辑必须单独括起来,否则可能引起无分区限制,下面举个例子,想查询到的是gd或gx的某天的数据。Select x from t where ds=...原创 2018-05-13 12:59:50 · 8473 阅读 · 0 评论 -
hive整体架构优化解决策略
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!hive可以从几个方面进行优化,从系统角度看:整体架构、MR阶段、JOB以及平台都可以进行优化。从用户角度看:了解SQL执行过程以及业务数据特点,调整SQL语句进行优化。一 整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引...原创 2018-05-13 12:54:16 · 587 阅读 · 2 评论 -
hive数据倾斜优化策略
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!Hive数据倾斜Group By 中的计算均衡优化1.Map端部分聚合先看看下面这条SQL,由于用户的性别只有男和女两个值 (未知)。如果没有map端的部分聚合优化,map直接把groupby_key 当作reduce_key发送给reduce做聚合,就会导致计算不均衡的现...原创 2018-05-13 12:50:47 · 18795 阅读 · 0 评论 -
hivejob中map的优化
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!1、Hive优化案例——map数过多集群运行的作业有不少map数超大的作业,占用slot过多,导致其他同池子的其他作业等待状态。由于小文件数过多会占用元数据过大,计算时也会消耗更多的资源。所以,建议文件的大小控制在不小于 100M。(文件也不是越大越好,gzip压缩文件最好控制500M以内)分区表...原创 2018-05-13 12:44:29 · 1703 阅读 · 0 评论 -
hive集成MySQL服务
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!MySQL安装请访问:https://blog.csdn.net/qq_35036995/article/details/80297000 hive配置:配置hive-site.xml 1、修改hive-site.xml 官网:https://cwiki.apache.org/con...原创 2018-05-13 10:00:11 · 496 阅读 · 0 评论 -
Failed with exception MetaException(message:javax.jdo.JDODataStoreException: Error(s) were found whi
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!hive (db_emp)> load data local inpath '/opt/datas/emp.txt' into table emp_part partition(`date`='2018120');在加载数据到HDFS上时,报错:Failed with exception M...原创 2018-05-10 23:05:13 · 1482 阅读 · 0 评论 -
关于Hive优化总结
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!问题导读:1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存...原创 2018-05-09 10:41:32 · 408 阅读 · 0 评论 -
hive报错:eption(message:javax.jdo.JDODataStoreException: An exception was thrown while adding/validati
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!在hive命令行创建表时报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreExceptio...原创 2018-05-09 10:28:54 · 2550 阅读 · 0 评论 -
cdh版本的hive安装以及配置
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!hive依赖hadoop需要的软件包:hive-0.13.1-cdh5.3.6.tar.gz 、hadoop-2.5.0-cdh5.3.6.tar.gz1、hadoop的安装步骤请访问: https://blog.csdn.net/qq_35036995/article/details/...原创 2018-05-09 10:27:21 · 10238 阅读 · 0 评论 -
hive表中解决乱码策略
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!修改编码,设置为utf-8 在 mysql 配置文件/etc/my.cnf(不需要拷贝)中[mysqld]的下面增加以下内容 init_connect='SET collation_connection = utf8_unicode_ci' init_connect='SET NA...原创 2018-05-13 14:34:40 · 909 阅读 · 0 评论