@DANGE-CSDN博客

结果：这样的后果就是所有为null值的id全部都变成了相同的字符串“hive”，及其容易造成数据的倾斜（所有的key相同，相同key的数据会到同一个reduce当中去）为了解决这种情况，我们可以通过hive的rand函数，随记的给每一个为空的id赋上一个随机值，这样就不会造成数据倾斜。有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的reducer上。3.1、空key过滤。

2023-12-20 10:57:37 3741 1

原创解决 Xshell 6 | xftp 6 强制更新无法打开

今天打开xftp，发现不让用了，要继续使用此程序，您必须应用最新的更新或使用新版本，必须强制升级，网上找到了xshell5去除强制升级的方法，但是把原文分享的文件替换，却打不开了，应该是xshell5 和sehll6 不兼容导致的.按照反编译操作，发现能解决问题，下面将步骤和文件放出原理是反编译文件，修改其中某个16进制再替换原文件解决方式:具体步骤步骤1：下载C32Asm编辑器步骤2：使用C32Asm编辑器打开nslicense.dll文件1. 找到安装目录的 `n...

2021-05-19 11:49:31 2214

原创 Hadoop 与 HBase 版本对应

Hadoop 与 HBase 版本对应参考:https://www.tqwba.com/x_d/jishu/73706.html图片来源参考官网：http://hbase.apache.org/book.html#hadoophive和hadoop、hive和spark之间版本对应关系版本信息来自于hive源码包的pom.xml：hive-3.1.2<hadoop.version>3.1.0</hadoop.version><hbase.vers

2021-05-18 15:52:49 6693 1

原创 HBase 通过MapReducer 统计数据写入MySQL中报异常:Exception in thread “main“ java.lang.IllegalAccessError

Exception in thread "main" java.lang.IllegalAccessError: class org.apache.hadoop.hdfs.web.HftpFileSystem cannot access its superinterface org.apache.hadoop.hdfs.web.TokenAspect$TokenManagementDelegator异常如下:Exception in thread "main" java.lang.IllegalA

2021-05-09 14:19:03 1494

原创 Flume 数据流监控 Ganglia 的安装与部署

Ganglia 的安装与部署1.安装httpd 服务与 phpsudo yum -y install httpd php2.安装其它依赖sudo yum -y install rrdtool perl-rrdtool rrdtool-develsudo yum -y install apr-devel3.安装 gangliasudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.no

2021-05-03 21:18:45 230

原创 Hive 中的设置大全...还在不断更新中

hive中设置map的个数set mapred.reduce.tasks=10; #好像没啥用hive中设置为mrset hive.execution.engine=mr;

2021-04-30 16:21:46 172 1

原创 Hive 优化动态分区实现开启reduce 需要shuffle

hive 动态分区实现（hive-1.1.0）hive-1.1.0动态分区的默认实现是只有map没有reduce,通过执行计划就可以看出来。（执行计划如下）insert overwrite table public_t_par partition(delivery_datekey) select * from public_oi_fact_partition;hive 默认的动态分区实现，不需要shuffle那么hive如何通过map就实现了动态分区了呢，stage1根据FileInp

2021-04-30 16:05:44 1170 1

原创 Hive 大量数据动态分区导入出现异常:“如何修复”文件只能复制到0个节点而不是minreplication(=1)。“?

我最终接触到了Cloudera论坛,他们在几分钟内回答了我的问题: http://community.cloudera.com/t5/Storage-Random-Access-HDFS/Why-can-t-I-partition-a-1-gigabyte-dataset-into-300/m-p/86554#M3981 我试过J的建议,但效果很好!他是这样说的:

2021-04-30 12:08:57 1420

qq_45831607的博客

原创安装 Superset - Python3.9环境

原创 Hive调优之小表Join大表