HBase Scan 中文字符串

最新推荐文章于 2024-08-11 03:53:27 发布

Yano阳

最新推荐文章于 2024-08-11 03:53:27 发布

阅读量1k

点赞数 1

分类专栏： HBase 文章标签： Hbase Scan 中文

HBase 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Author：Pirate Leo

myBlog: http://blog.csdn.net/pirateleo/

myEmail: codeevoship@gmail.com

转载请注明出处，谢谢。

文中可能涉及到的API：

Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/

HBase: http://hbase.apache.org/apidocs/index.html?overview-summary.html

Begin！

在设置scan的startRowKey与endRowKey时，经常需要在某个条件字符串后面补充出一个范围。（再比如SingleColumnValueFilter也会用到）

比如：我的条件字符串是“abc”，scan时我需要将下述内容都囊括到我scan的范围内。

abc123

abcdabc

abccca

....

这时候我startRowKey使用“abc”即可，上述字符串按字典序都比“abc”要大，“abc”串c之后的值是0嘛~

而endRowKey最初我使用了“abc~”，因为我查ASCII码表时‘~’是倒数第二个，值为127，足够大，肯定大于上述串中的1、d、c等字符。

这样做，在处理英文数据时就足够了，系统运行正常。

但当我处理中文数据时，中文一般都是以UTF-8格式处理的，一个汉字表示出来类似“0xe6，0xc2，0xe1”。0xe6大于127。所以使用‘~’遇到中文必然悲催。

我的解决方法：

使用UltraEdit，进入十六进制编辑模式，将值改为FF。然后回到文本模式，将刚才的字符复制下来。这个字符应该是一个不可显示的字符，看着好像两个空格的长度。

然后在设置endRowKey时

new String(name + " "); //这里只是示例，引号间就是刚才复制的那个字符。将这个字符串作为endRowKey，果然所有的中文字符就囊括在内了。
---------------------
作者：胡同里的民工
来源：CSDN
原文：https://blog.csdn.net/PirateLeo/article/details/7957109
版权声明：本文为博主原创文章，转载请附上博文链接！

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Yano阳 CSDN认证博客专家 CSDN认证企业博客

码龄13年

11: 原创

25万+: 周排名

36万+: 总排名

9万+: 访问

: 等级

930: 积分

16: 粉丝

25: 获赞

21: 评论

60: 收藏

私信

关注

热门文章

分类专栏

发送邮件 1篇
开发环境 3篇
spark 4篇
etl 1篇
java8
HBase 2篇
jvm 1篇
Spring 1篇
CDH 1篇
异常解决 1篇

最新评论

多线程从MongoDB读取数据，并以固定大小写入HDFS
_默 ® 守_: 完整代码能发我一份吗、谢谢大佬邮箱：wings_final@163.com
Spark运行任务文件 /etc/hadoop/conf.cloudera.yarn/topology.py 报错解决
lmw0320: 大佬，我是py3环境。本地安装了pyspark，想连接到服务器上的spark，并尝试对hbase数据库进行查询写入等操作。。我在服务器上，已经测试pyspark环境下可以执行该代码。。但是本地安装好pyspark，却会报错，提示java.io.IOException: Cannot run program "/etc/hadoop/conf.cloudera.yarn/topology.py" (in directory "/home/lmw/deep_learning/python_files"): error=2 没有那个文件或目录。我没明白，这个流程应该是怎样的？本地的pyspark弄好后，还要在本地安装spark 和hadoop的客户端么? hbase呢？另外，如要求本地安装spark和hadoop，要如何配置呢？？我看报错提到的/etc/hadoop/conf.cloudera的文件路径，是在服务器上的。我本地没有这个文件夹啊
Spark SQL java.lang.StackOverflowError 异常处理
Tisfy: 这篇帖子，就好比黑暗中刺裂夜空的闪电
Spark SQL java.lang.StackOverflowError 异常处理
Liannai_: 解决了我的问题，十分感谢！
hive on spark 动态解决小文件太多的办法
fendouderen: 楼主你好,我在用sparksql 处理数据的时候数据量很大我把spark.sql.shuffle.partitions设置成了800 但是在写入到hive的分区表后导致了每个分区里都是800个左右的小文件，小文件太多了，后来我先用repartition()来减少分区了虽然达到了目的但是相应的这个stage的并行度太低，导致很慢有什么好的解决方法吗?我这个作业每天都要使用执行

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。