
Hadoop工作
qq_43193797
github:https://github.com/yanjie666
展开
-
Hive的锁
show locks <table_name> extended; eg:show locks tmp.ad_requestextended;原创 2019-08-01 17:09:27 · 295 阅读 · 0 评论 -
简单验证俩张表的数据是否一致
select a.* from (select * from tmp.ctr where data_date=2019080102) a join (select * from tmp.ctr_b where data_date=2019080102) b on a.aid=b.aid and a.price_stgy_id=b.price_stgy_id and a.bid=b.bid and ...原创 2019-08-06 11:10:22 · 757 阅读 · 0 评论 -
Hadoop中的辅助类ToolRunner和Configured的用法详解
在开始学习hadoop时,最痛苦的一件事就是难以理解所写程序的执行过程,让我们先来看这个实例,这个测试类ToolRunnerTest继承Configured的基础上实现了Tool接口,下面对其用到的基类源码进行分析,就可以理解其执行过程是如此简单。。。。。。 package xml; import org.apache.hadoop.conf.Configuration; import or...转载 2019-06-06 13:37:10 · 786 阅读 · 0 评论 -
Hadoop之HDFS的FileSystem接口详解
基本的文件系统命令操作,通过hadoop fs-help可以获取所有的命令的详细帮助文件。 Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。 Hadoop类库中最终面向用户提...转载 2019-06-06 17:36:44 · 1550 阅读 · 1 评论 -
如何简单高效地验证清洗hdfs数据的正确性
使用spark,如图:启动spark-shell,使用spark的filter算子过滤出自己想要的数据,和源数据进行对比。 在我实际工作中,遇到最后一个值90%都是0.0(这个值同时也是MR程序清洗的默认值),但是存在数据是1的情况。,如何过滤看到其他值从而判断数据清洗的正确性。 ...原创 2019-06-19 11:23:24 · 565 阅读 · 0 评论 -
Java中枚举类型Enum的一种使用方式
Java中枚举类型Enum的一种使用方式 public enum Status { SCUUESS("1", "成功"), FAILED("2", "失败"); private String value; private String desc; public String getValue() { return value; } ...原创 2019-06-19 13:20:33 · 314 阅读 · 0 评论 -
验证flume采集日志延迟
select data_date ,hour ,count(*) from (select data_date ,from_unixtime(floor(rtime/1000),'yyyyMMddHH') as hour from tmp.table_tmp where data_date >= 2019062800 and data_...原创 2019-07-17 13:15:11 · 660 阅读 · 0 评论