Spark-submit问题、Hive表load空值问题、jar Classnotfount和自定义UDF的使用以及常见的问题

最新推荐文章于 2023-11-08 17:24:54 发布

H_crab

最新推荐文章于 2023-11-08 17:24:54 发布

阅读量629

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/H_crab/article/details/79955043

版权

hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Hive

hive是数据仓库，建立在hdfs生态圈的上层架构，hive的数据可以与mysql hbase 进行转换

1.使用mysql导入数据到hive load 表发现值为null的问题

（1）先检查sqoop 导入时候有没有指定分隔符

 --fields-terminated-by '#'这一句是不是添加了。默认是逗号是分隔符

切记指定分隔符只能为单字符，推荐\t 和hive默认的\001 前提是数据里面不可能包含此字符

（2）如果hive中的表与sqoop导入指定的分隔符一致仍发现一大堆null值这时候就要注意了。

很有可能是导入的数据中有此分隔符导致数据错位直接报null

（3）以上如果还没有发现问题，请先sqoop上去一点数据进行测试上50070 下载这个blk

打开nodepad++查看导出的数据是不是你要的格式不要用那些乱七八糟的符号比如⭐。

这一步缺认后数据没有问题，那么只能是你所导入的数据中包含你所用的分隔符这个可能了。。。

比较笨的解决办法：1先不用包含的分隔符进行操作2自定义UDF 对其进行操作split不需要的字符或者字节

import org.apache.hadoop.hive.ql.exec.UDF;

public class evaluat（String str）｛

val s1="";

if（str ！=null && str！=“”）

if( str.split("字符").lenth>1){

for(int a=0 ;a<str.split("字符").lenth;a++){

s1+=str.split("字符").get(a)}

return s1；

}｝这里大概的逻辑是这样就不做优化了根据自己的业务来

return str；

hive-shell

add jar 你的jar包目录（本地）

create temporary function <函数名> '你的那个UDF类的路径' 举例com.hive.udf

使用的话就在select 语句中函数名（值）就可以了

一切的报错请仔细检查错误信息和字段对应的问题大多都是不细心字段对不上而产生的错误

不要把存数据的mysql 和hive的mysql用同一台机器

二、spark jar包 classnotfound

常见问题 1.我用eclipse打jar包就可以正常运行，到idea 里面写打jar包怎么就不行（如果非要用idea打包还运行不了麻烦删除jar 文件里的所有DSA 和SF文件）这些是记录类的加载信息的 ,最好还是用maven打

2.jar包的存放地址请放在本地丢到集群也可以但记得路径要写对复制粘贴代码的时候记得吧packect 换成正确的，有一次我就忘了删然后copyname 怎么都不对。后来发现这个packect 会影响到classname的

3.请核对scala版本和java的版本对不上号的会有冲突。

4.比较常见也是最愚蠢的问题。。class 包路径名字打错了。。请检查一遍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。