大数据其他
文章平均质量分 59
不想做靓仔
能帮到你实在是太好了~
展开
-
Elasticsearch只能查10000条数据解决办法
es官方默认限制索引查询最多只能查询10000条数据,查询第10001条数据开始就会报错:。。但是很多时候10000数据不能满足项目的需求,所以我们就要解除这个限制。原创 2022-05-26 18:23:34 · 3248 阅读 · 0 评论 -
hive的行列转换进阶之字段名与字段值的互相转换,str_to_map函数应用
本文列举在一些特殊需求下,比如**需要把多行数据根据某一列的字段值转化为字段名的多行转一行的需求**,或者把**字段名转化为字段值的一行转多行的需求**原创 2021-12-10 16:41:07 · 4840 阅读 · 1 评论 -
hive2.2之后的merge into
参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Merge https://community.cloudera.com/t5/Community-Articles/Hive-ACID-Merge-by-Example/ta-p/245402 说明 Hive在2....转载 2021-11-01 11:40:19 · 2082 阅读 · 0 评论 -
解决Hbase shell里面退格删除键不好使的问题
声明:本文是针对的mobaxterm软件其他软件比如xshell、SecureCRT可看看这一篇文章:点击查看直接上办法Edit session找到 Terminal settings去掉backspace sends ^H 的√原创 2020-06-11 18:07:43 · 2666 阅读 · 0 评论 -
在IDEA用java运行DataX
怎么在idea用java运行DataX?搞了好几天各方参考终于弄出来了1.从GitHub下载datax源码2.等待依赖的下载,完成后会有一部分依赖没下载完回报红,可以先不管,然后在pom文件中去掉不需要的reader和writer的 module3.在下面的Terminal中输入命令mvn -U clean package assembly:assembly -Dmaven.test.skip=true等待打包完成会在项目下生成target\datax\datax目录,这就是你的da原创 2020-05-11 15:47:16 · 4510 阅读 · 8 评论 -
Phoenix与hbase的表映射
文章目录phoenix映射HBase视图映射表映射总结:phoenix映射HBase默认情况下,直接在hbase中创建的表,通过phoenix是查看不到的。如果要在phoenix中操作由hbase创建的表,则需要在phoenix中进行表的映射。映射方式有两种:视图映射和表映射为了测试,我们先在Hbase中创建表testtest有两个列簇name、company.视图映射Pho...原创 2020-04-27 11:02:15 · 4115 阅读 · 0 评论 -
phoenix初探,与hbase结合
文章目录Phoenix是什么 ?特点作用安装与部署基本命令操作Phoenix是什么 ?官方说:“We put the SQL back to NoSQL”也就是说,Phoenix是对NoSQL提供SQL支持的工具。当然对Hbase肯定也支持,它可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。特点容易集成:如对Spark,Hive,Pig,...原创 2020-04-27 09:54:41 · 452 阅读 · 0 评论 -
oozie运行时遇到的常见两种错误Main class exit code [1]及JA006:failed on connection exception
今天我在用oozie执行一个sqoop脚本时遇到了两个错误job和workflow都写好了,脚本是这样的:1.JA006:Call From hadoop01/192.168.137.77 to 0.0.0.0:10020 failed onconnection exception: java.net.ConnectException: Connection refused解决办法:...原创 2019-01-08 15:48:08 · 6931 阅读 · 3 评论 -
kafka消费者两种分区分配策略
转自 https://blog.csdn.net/u012745028/article/details/85319774 kafka消费者如何分配分区以及分配分区策略和源码解释我们知道kafka的主题中数据数据是按照分区的概念来的,一个主题可能分配了多个分区,每个分区配置了复制系数,为了可用性,在多个broker中进行复制,一个分区在多个broker中选举出一个...转载 2019-04-18 18:16:37 · 5895 阅读 · 0 评论