Datax抽取hbase数据

  1. 下载Datax
    直接下载DataX工具包:DataX下载地址
  2. 解压并生成json模板:
tar -zxvf datax.tar.gz
[hdfs@192-168-16-71 datax]$ cd bin
[hdfs@192-168-16-71 bin]$ ll
total 40
-rwxrwxr-x 1 hdfs hdfs  8993 Nov 24  2017 datax.py
-rwxrwxr-x 1 hdfs hdfs  6906 Nov 24  2017 dxprof.py
-rwxrwxr-x 1 hdfs hdfs 16897 Nov 24  2017 perftrace.py
[hdfs@YZ-222-16-71 bin]$ python datax.py  -r hbase11xreader  -w txtfilewriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


Please refer to the hbase11xreader document:
     https://github.com/alibaba/DataX/blob/master/hbase11xreader/doc/hbase11xreader.md 

Please refer to the txtfilewriter document:
     https://github.com/alibaba/DataX/blob/master/txtfilewriter/doc/txtfilewriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "hbase11xreader", 
                    "parameter": {
                        "column": [], 
                        "encoding": "", 
                        "hbaseConfig": {}, 
                        "mode": "", 
                        "range": {
                            "endRowkey": "", 
                            "isBinaryRowkey": true, 
                            "startRowkey": ""
                        }, 
                        "table": ""
                    }
                }, 
                "writer": {
                    "name": "txtfilewriter", 
                    "parameter": {
                        "dateFormat": "", 
                        "fieldDelimiter": "", 
                        "fileName": "", 
                        "path": "", 
                        "writeMode": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}
  1. 创建测试表:
hbase(main):046:0> create 'LXW','CF'
0 row(s) in 1.2120 seconds

=> Hbase::Table - LXW
hbase(main):047:0> put 'LXW','row1','CF:NAME','lxw'
0 row(s) in 0.0120 seconds

hbase(main):048:0> put 'LXW','row1','CF:AGE','18'
0 row(s) in 0.0080 seconds

hbase(main):049:0> put 'LXW','row1','CF:ADDRESS','BeijingYiZhuang'
0 row(s) in 0.0070 seconds

hbase(main):050:0> put 'LXW','row2','CF:ADDRESS','BeijingYiZhuang2'
0 row(s) in 0.0060 seconds

hbase(main):051:0> put 'LXW','row2','CF:AGE','18'
0 row(s) in 0.0050 seconds

hbase(main):052:0> put 'LXW','row2','CF:NAME','lxw2'
0 row(s) in 0.0040 seconds

hbase(main):053:0> exit
  1. 根据模板编写JSON文件:lxw.json
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "hbase11xreader", 
                    "parameter": {
                       "hbaseConfig": {
                            "hbase.zookeeper.quorum": "192.168.16.70:2181"
                        },
                        "table": "LXW",
                        "encoding": "utf-8",
                        "mode": "normal",
                        "column": [
                        {
                          "name":"rowkey",
                          "type":"string"
                        },
                        {
                          "name":"CF:NAME",
                          "type":"string"
                        },
                        {
                          "name":"CF:AGE",
                          "type":"string"
                        },
                        {
                          "name":"CF:ADDRESS",
                          "type":"string"
                        }

                        ], 
                      
                        "range": {
                            "endRowkey": "", 
                            "isBinaryRowkey": false, 
                            "startRowkey": ""
                        }
                  
                    }
                }, 
                "writer": {
                    "name": "txtfilewriter", 
                    "parameter": {
                        "dateFormat": "yyyy-MM-dd", 
                        "fieldDelimiter": "\t", 
                        "fileName": "LXW", 
                        "path": "/export/test_datax/", 
                        "writeMode": "truncate"
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": 5
            }
        }
    }
}
  1. 执行抽取命令:
[hdfs@192-168-16-71 bin]$ python datax.py  ./lxw.json 

#########输出日志太长,这里就粘上最后一段信息
2018-11-07 15:50:05.846 [job-0] INFO  StandAloneJobContainerCommunicator - Total 2 records, 50 bytes | Speed 5B/s, 0 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.000s |  All Task WaitReaderTime 0.049s | Percentage 100.00%
2018-11-07 15:50:05.847 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2018-11-07 15:49:54
任务结束时刻                    : 2018-11-07 15:50:05
任务总计耗时                    :                 10s
任务平均流量                    :                5B/s
记录写入速度                    :              0rec/s
读出记录总数                    :                   2
读写失败总数                    :                   0

  1. 查看导出结果:
[root@192-168-16-71 test_datax]# cat LXW__36bd388f_0969_49ba_9757_3d8978ab2ac0 
row1    lxw     18      BeijingYiZhuang
row2    lxw2    18      BeijingYiZhuang2
  1. 当指定rowkey范围
            "range": {
                            "endRowkey": "row2", 
                            "isBinaryRowkey": false, 
                            "startRowkey": "row1"
                        }
  1. 其执行结果:
[root@192-168-16-71 test_datax]# cat LXW__0aabbffc_65c6_4e0d_a173_414d469a18e2 
row1    lxw     18      BeijingYiZhuang
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值