hbase rowkey 中文字符串查询异常处理。

27 篇文章 0 订阅
15 篇文章 0 订阅

问题描述

hbase 扫描两个rowkey 之间的数据(左包含,右不包含), 在设置scan的startRowKey与endRowKey时,经常需要在某个rowkey条件字符串后面补充出一个范围。本案例出现了查询不到数据的问题。

例如
rowkey 的结构如下black_id|area_id|group_id|character_name其中character_name为中文。(并且中文存在乱码情况
当按照范围查询时 如指定如下参数则查询不到数据

全量数据

[
    {
        "group_id":"1",
        "black_id":"wj123456789.pt",
        "character_name":"有此命运何德何能",
        "character_id":"6666663",
        "area_id":"1"
    },
    {
        "group_id":"1",
        "black_id":"wj123456789.pt",
        "character_name":"��劣谖硪��",
        "character_id":"6666661",
        "area_id":"1"
    },
    {
        "group_id":"8",
        "black_id":"wj123456789.pt",
        "character_name":"��璧豪袷��",
        "character_id":"6666662",
        "area_id":"1"
    }
]
# 查询不到数据
scan 'black_joker_table' ,{STARTROW => 'wj123456789.pt|1|8|', ENDROW => 'wj123456789.pt|1|8|�'}·

查询结果

0 row(s) in 0.0180 seconds
# 可以查询到数据
scan 'black_joker_table' ,{STARTROW => 'wj123456789.pt|1|1|', ENDROW => 'wj123456789.pt|1|1|�'}·

查询结果

    {
        "group_id":"1",
        "black_id":"wj123456789.pt",
        "character_name":"有此命运何德何能",
        "character_id":"666666",
        "area_id":"1"
    }

rowkey 设计如下

在这里插入图片描述

scan 查询规则

scan 'table name',{STARTROW=>'start_row_key',STOPROW=>'stop_row_key'}

原因分析

1 首先rowkey 更具范围scan 的时候字符按照字典序排列的。当处理查询的时候包含中文,scan时需要将要查询的内容都囊括到scan的范围内。查询不到数据怀疑应该是没有将要查询的数据囊括的 scan 的范围内。

endkey 已经补充了如下字符。

 � �

在这里插入图片描述

��劣谖硪��  超过了我们要查询的范围  ��   
因为按照字典序排列 第三位的时候我们自定义的字符为空。

在这里插入图片描述

解决办法

1 更换rowkey.在业务允许的情况下尽量避开使用中文因为会存在乱码的情况
2 增加scan的范围,也就是补充一个比较长的能够相对来说覆盖到 我们要查询的所有情况的endrow/

scan 'black_joker_table' ,{STARTROW => 'wj123456789.pt|1|8|', ENDROW => 'wj123456789.pt|1|8|����'}·

查询结果

{
        "group_id":"1",
        "black_id":"wj123456789.pt",
        "character_name":"��劣谖硪��",
        "character_id":"6666661",
        "area_id":"1"
    },
    {
        "group_id":"8",
        "black_id":"wj123456789.pt",
        "character_name":"��璧豪袷��",
        "character_id":"6666662",
        "area_id":"1"
    }

在这里插入图片描述
总的来说还是需要设计一个良好的rowkey 才能避免这样的问题发生。

工具

黑色菱形白色问号代表了什么意思?

U+FFFD � REPLACEMENT CHARACTER used to replace an unknown, unrecognized, or unrepresentable character
用于替换未知、无法识别或无法表示的字符

https://www.unicode.org/charts/PDF/UFFF0.pdf
在这里插入图片描述

hbase rowkey 中为什么会出现十六进制数?

rowkey 在hbase 中是按照byte[] 的方式进行存储的。并且是按照 ASCII码进行排序。那么超出ASCII 的部分如何存储

  • 如果字节值在范围内,则将其转换为可打印 (ASCII) 表示。
  • 如果字节值不在 ASCII 范围内,则将其转换为 \xHH(其中 ‘H’ 表示十六进制数字)。

hbase 十六进制转字符串

import org.apache.commons.codec.DecoderException;
import org.apache.commons.codec.binary.Hex;

import java.io.UnsupportedEncodingException;

public class TestSplit {
    public static void main(String[] args) throws DecoderException, UnsupportedEncodingException {
        String str = "\\xEF\\xBF\\xBD\\xEF\\xBF\\xBD\\xEF\\xBF\\xBD\\xE7\\xBA\\xA7\\xEE\\x89\\x85\\xE8\\x8D\\x92\\xEF\\xBF\\xBD\\xEF\\xBF\\xBD".replace("\\x","");
        System.out.println(new String(Hex.decodeHex(str.toCharArray()),"utf-8"));
    }
}

参考链接

https://en.wikipedia.org/wiki/Specials_(Unicode_block)

https://stackoverflow.com/questions/42353013/what-are-the-non-hex-characters-in-hbase-shell-rowkey

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值