Hive
依旧ฅ=ฅ
想去的地方很远 想买的东西很贵 想守护的东西很美好 所以选择努力
展开
-
【hive】修复分区报错Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
hive> msck repair table dw_dv1.app_incremental_base;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTaskhive> set hive.msck.path.validation=ignore;hive> msck repair table dw_dv1.app_incremental_base;OKTime taken.原创 2021-07-02 11:48:27 · 2573 阅读 · 1 评论 -
【hive】hive分区表导出到mysql(超简单操作)
那些什么鞋脚本循环执行导出,既繁琐又耗时我的思路:将hive分区表查询结果保存到hdfs 实现方式点击跳转 将hdfs文件使用sqoop导出到mysql 实现方式点击跳转该方式两步到位,第一步可以根据自己需求是否需要分区字段,需要就在查询加上分区字段,第二步根据自己需求全量导出还是增量导出...原创 2021-01-21 10:29:02 · 6580 阅读 · 2 评论 -
【hive】去重表数据、将hive查询结果保存到本地或者hdfs
1.复制表结构CREATE TABLE <new_table> LIKE <old_table>;2.插入去重后的数据insert overwrite table <new_table>(select t.id, t.local_pathfrom (selectid, local_path, row_number() over(distribute by id sort by local_path) as rnfrom <old_table原创 2021-01-18 16:04:33 · 6563 阅读 · 0 评论 -
【hive】启动时的一些notfind日志优化
1、ls: 无法访问/export/servers/spark/lib/spark-assembly-*.jar: 没有那个文件或目录原因:spark升级到spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。解决:vim ${HIVE_HOME}/bin/hive搜索 sparkAssemblyPath=将定位的=号右边改成 `ls ${SPARK_HOME}...原创 2021-01-15 10:39:30 · 5402 阅读 · 0 评论 -
【hive】load data local inpath向hive中加载数据之后查询出来全为空
load data local inpath向hive中加载数据之后查询出来全为空然后尝试上传到hdfs对应表目录下,msck repair table tablename修复表数据之后查询出来还是空可能原因:创建表的时候指定的分割符和数据文本的分割符不一致(我这里原因是创建表的时候指定的分隔符是'\t',在文本加数据的时候粘过去变成空格了没注意到)...原创 2020-09-27 10:53:25 · 8265 阅读 · 0 评论 -
【hive】INFO hive.HiveImport: FAILED: Execution Error, return code 1 from org.apache
20/09/24 14:38:37 INFO hive.HiveImport: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An exception was thrown while adding/validating class(es) : Column length too big for column 'PARAM_VALUE' (ma原创 2020-09-24 15:21:42 · 5578 阅读 · 0 评论 -
【hive】WARN: Establishing SSL connection without server‘s identity verification is not recommended. A
WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn't set. For compliance with existin原创 2020-09-24 11:09:55 · 5455 阅读 · 0 评论 -
【hive】分区表映射修复表之后没数据
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. MetaException(message:Error(s) were found while auto-creating/validating the datastore for classes. The errors are printed in the log, and are attac原创 2020-05-19 06:37:13 · 4151 阅读 · 0 评论 -
【idea】【hive】idea连接hive
添加一个Driver修改名称、添加hive相关的jar包(jar包在该文章底部)、修改Class:为org.apache.hive.jdbc.HiveDriver添加一个hive连接URL:jdbc:hive2:ip:porthivelib下载地址:https://download.csdn.net/download/qq_44065303/12370122...原创 2020-04-28 18:29:55 · 11572 阅读 · 10 评论 -
【Hive】一些函数
语法: split(string str, string pat)返回值: array说明: 按照pat字符串分割str,会返回分割后的字符串数组举例:1.基本用法hive> select split('abcdef', 'c') from test;["ab", "def"]2.截取字符串中的某个值//获取年月日hive (default)> select...原创 2020-04-27 20:42:02 · 4919 阅读 · 0 评论 -
【hive】hive Could not connect to node01:10000
Could not connect to node01:10000原因无法连接端口node01节点的10000端口解决1、检查是否开启hiveserver2服务hive --service hiveserver2 &2、检查10000端口是否被占用netstat -anop | grep 10000端口被占用就把10000端口杀死重新开启hives...原创 2020-04-26 16:25:52 · 6635 阅读 · 0 评论 -
HIVE汇总目录
Hive简介 Hive安装与使用 hive中数据库与表 分区表与分桶表 hive的shell窗口修改表,查询表 hive表中加载数据 hive表中的数据导出 hive查询语法 hive函数(内置函数,自定义函数)&&java自定义函数 Hive Shell参数 hive的数据压缩...原创 2019-12-07 02:39:12 · 3788 阅读 · 0 评论 -
hive调优
一、Fetch抓取(Hive可以避免进行MapReduce)Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认...原创 2019-12-05 09:29:36 · 3761 阅读 · 0 评论 -
存储和压缩结合
官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORCORC存储方式的压缩: Key Default Notes orc.compress ZLIB high level compressio...原创 2019-12-05 09:14:19 · 3668 阅读 · 0 评论 -
hive的数据存储格式
Hive支持的存储数据的格式主要有:TEXTFILE(行式存储)、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。一、列式存储和行式存储上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。行存储的特点:查询满足条件的一整行数据的时候,行存储只需要找到其中一个值,其余的值都在相邻地方。列存储则需要去每个聚集的字段找到对应的每个列的...原创 2019-12-05 09:06:52 · 3940 阅读 · 0 评论 -
hive的数据压缩
在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期学习hadoop的时候,已经配置过hadoop的压缩,hive也可以使用压缩来节省MR处理的网络带宽一、MR支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 DEFAULT 无 ...原创 2019-12-05 08:54:51 · 3701 阅读 · 0 评论 -
Hive Shell参数
1、Hive命令行hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明:-i从文件初始化HQL。 -e从命令行执行指定的HQL -f 执行HQL脚本 -v 输出执行的HQL语句到控制台 -p <port> connect...原创 2019-12-04 08:11:48 · 3723 阅读 · 0 评论 -
hive函数(内置函数,自定义函数)&&java自定义函数
一、hive内置函数1、查看系统自带的函数hive>show functions;2、显示自带的函数的用法hive> desc function upper;3、详细显示自带的函数的用法hive> desc function extendedupper;二、hive自定义函数当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用...原创 2019-12-03 21:35:47 · 4300 阅读 · 0 评论 -
hive查询语法
目录一、SELECT(1)全表查询(2)选择特定列查询(3)列别名二、常用函数三、LIMIT语句四、WHERE语句五、比较运算符(BETWEEN/IN/ IS NULL)六、LIKE和RLIKE七、逻辑运算符(AND/OR/NOT)八、分组(1)GROUP BY语句(2)HAVING语句九、JOIN语句(1)等值JOIN(2)表的别...原创 2019-11-28 20:28:17 · 4355 阅读 · 0 评论 -
【hive】中数据库与表
hive 建立一张表 跟已经存在的结构haul的数据文件产生映射关系映射成功之后就可以通过写SQL来分析这结构化的数据 避免了写mr程序的麻烦数据库 /user/hive/warehouse 下的一个文件夹对应数据库hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir&...原创 2019-11-26 09:24:05 · 3909 阅读 · 0 评论 -
hive表中的数据导出
将hive表中的数据导出到其他任意目录,例如linux本地磁盘,例如hdfs,例如mysql等等一、insert导出将查询的结果导出到本地insert overwrite local directory '/export/servers/exporthive/a' select * from score;将查询的结果格式化导出到本地insert overwrite local d...原创 2019-11-22 11:36:41 · 4405 阅读 · 0 评论 -
hive表中加载数据
一、直接向分区表中插入数据create table score3 like score;insert into table score3 partition(month ='201807')values ('001','002','100');二、通过load方式加载数据load data local inpath '/export/servers/hivedatas/sco...原创 2019-11-22 11:30:35 · 3942 阅读 · 0 评论 -
hive的shell窗口修改表,查询表
修改表增加分区:ALTER TABLE table_ name ADD PARITION(dt='20170101') location'/user/hadoop/warehouse/table_ name/dt=20170101';//一次添加一个分区ALTER TABLE table_ name ADD PARTITION (dt='2008-08-08', country='...原创 2019-11-22 11:18:39 · 3760 阅读 · 0 评论 -
分区表与分桶表
分区表:在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样去操作小的文件就会容易得多了分区字段是一个虚拟的字段 不存放任何数据,分区表字段不能够在表中已经存在。分区字段的数据来自于装载分区表数...原创 2019-11-22 10:40:43 · 5482 阅读 · 0 评论 -
Hive安装与使用
一、Hive的安装(一)内置Derby版:解压hive安装包bin/hive 启动即可使用缺点:不同路径启动hive,每一个hive拥有一套自己的元数据,无法共享(二)使用mysql共享hive元数据:第一步:查看系统自带的mysql的rpm包rpm -qa | grep mysqlrpm -e mysql-libs-5.1.73-8.el6_8.x86_6...原创 2019-11-21 23:00:00 · 3694 阅读 · 0 评论 -
Hive简介
一、什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。二、为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求...原创 2019-11-21 22:07:08 · 3783 阅读 · 0 评论