AccumuloHiveRow--Hive源码读取第二篇

最新推荐文章于 2019-06-10 15:01:48 发布

学海无涯2.0

最新推荐文章于 2019-06-10 15:01:48 发布

阅读量157

点赞数

分类专栏： Hive源码文章标签： Hive源码

本文链接：https://blog.csdn.net/weixin_42474635/article/details/89450335

版权

本文深入探讨AccumuloHiveRow在Hive源码中的实现，通过分析其关键代码，揭示数据读取流程和技术细节，帮助读者理解Hive如何与Accumulo进行交互。

摘要由CSDN通过智能技术生成

package org.apache.hadoop.hive.accumulo;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.List;

import org.apache.commons.lang.builder.HashCodeBuilder;   //产生HashCode
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;

import com.google.common.base.Preconditions;

哈希散列应该是在大数据里应用的比较多了吧，在解决数据倾斜的时候就经常用到，hbase里的rowID也会用到哈希等，
那到底什么是哈希呢？
就是把任意长度的输入，通过散列算法变换成固定长度的输出，该输出就是散列值。
关于散列的注意点：
1、如果散列表中存在和散列原始输入K相等的记录，那么K必定在f(K)的存储位置上
2、不同关键字经过散列算法变换后可能得到同一个散列地址，这种现象称为碰撞
3、如果两个Hash不同(同一Hash算法)，那么两个Hash值对应的原始输入也必定不同
HashCode有什么用
回到最关键的问题，HashCode有什么用？不妨举个例子：
1、假设内存中有0 1 2 3 4 5 6 7 8这8个位置，如果我有个字段叫做ID，那么我要把这个字段存放在以上8个位置之一，如果不用HashCode而任意存放，那么当查找时就需要到8个位置中去挨个查找
2、使用HashCode则效率会快很多，把ID的HashCode%8，然后把ID存放在取得余数的那个位置，然后每次查找该类的时候都可以通过ID的HashCode%8求余数直接找到存放的位置了
3、如果ID的 HashCode%8算出来的位置上本身已经有数据了怎么办？这就取决于算法的实现了，比如ThreadLocal中的做法就是从算出来的位置向后查找第 一个为空的位置，放置数据；HashMap的做法就是通过链式结构连起来。反正，只要保证放的时候和取的时候的算法一致就行了。
4、如果ID的 HashCode%8相等怎么办（这种对应的是第三点说的链式结构的场景）？这时候就需要定义equals了。先通过HashCode%8来判断类在哪一 个位置，再通过equals来在这个位置上寻找需要的类。对比两个类的时候也差不多，先通过HashCode比较，假如HashCode

最低0.47元/天解锁文章

学海无涯2.0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AccumuloHiveRow--Hive源码读取第二篇

package org.apache.hadoop.hive.accumulo;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.ArrayList;import java.util.Arrays;import java.util.Collect...
复制链接

扫一扫

专栏目录