dataX_from_mysql_to_hive orc分区表

8 篇文章 0 订阅
3 篇文章 0 订阅
该文描述了如何在Hive中创建一个ORC分区表,包括表结构定义和注释设置。接着,展示了在导入数据前如何使用ALTERTABLE命令管理分区。最后,提供了DataX配置示例,用于从MySQL读取数据并写入到HDFS上的HiveORC表,采用Snappy压缩。
摘要由CSDN通过智能技术生成

1. hive建表:

CREATE TABLE ods.ods_mysql_to_hive_orc_partiton(

  `id` int ,

  `name` string COMMENT 'name'

)  COMMENT '测试表_测试datax_导入_orc分区表' PARTITIONED BY (`dayid` string comment '分区字段')

ROW FORMAT DELIMITED FIELDS TERMINATED BY '^'  STORED AS orc;

2.导入前,增加分区

alter table ods.ods_mysql_to_hive_orc_partiton drop partition (dayid=${dayid_1d_ago_global})

alter table ods.ods_mysql_to_hive_orc_partiton add partition (dayid=${dayid_1d_ago_global})

3.datax导入语句

{

  "job": {

    "setting": {

      "speed": {

        "channel": "1"

      },

      "errorLimit": {

        "record": 0,

        "percentage": 1

      }

    },

    "content": [

      {

        "reader": {

          "name": "mysqlreader",

          "parameter": {

            "username": "username",

            "password": "password",

            "splitPk": "",

            "column": [

              "`id`","`name`"

            ],

            "where": "",

            "connection": [

              {

                "jdbcUrl": ["jdbc:mysql://192.168.2.149:3306/database_name?serverTimezone=Asia/Shanghai"],

                "table": ["`bable_name`"]

              }

            ]

          }

        },

        "writer": {

          "name": "hdfswriter",

          "parameter": {

            "defaultFS": "hdfs://namenode.hive.com.cn:3366",

            "fileType": "orc",

            "path": "/warehouse/tablespace/managed/hive/ods.db/ods_mysql_to_hive_orc_partiton/dayid=$dayid/",

            "fileName": "000000_0",

            "column": [

              {"name": "id","type": "int"},{"name": "name","type": "string"}

            ],

            "writeMode": "append",

            "fieldDelimiter": "^",

            "compress": "snappy"

          }

        }

      }

    ]

  }

}

要在Linux上安装DataXDataX Web,您可以按照以下步骤进行操作: 1. 安装Java:DataX是基于Java开发的,所以首先需要安装Java运行环境。您可以使用以下命令来安装OpenJDK(Java的一个开源实现): ``` sudo apt update sudo apt install openjdk-8-jdk ``` 2. 下载DataX:您可以从DataX的官方GitHub页面(https://github.com/alibaba/DataX)上下载DataX的最新版本。使用以下命令将其下载到您的Linux系统中: ``` wget https://github.com/alibaba/DataX/archive/refs/tags/vx.x.x.tar.gz ``` 3. 解压DataX:使用以下命令解压下载的DataX压缩包: ``` tar -zxvf vx.x.x.tar.gz ``` 4. 配置DataX:进入解压后的DataX目录,并编辑`job`目录下的配置文件`job.json`,根据您的需要配置数据源和目标源的连接信息。 5. 运行DataX:使用以下命令启动DataX并执行数据迁移任务: ``` cd DataX-x.x.x python bin/datax.py job/job.json ``` 至此,您已成功在Linux上安装和运行DataX。 如果您还希望安装DataX Web,可以按照以下步骤进行操作: 1. 安装Python和pip:DataX Web是基于Python和Flask框架开发的,所以需要安装Python和pip包管理工具。使用以下命令安装: ``` sudo apt install python3 python3-pip ``` 2. 下载DataX Web:您可以从DataX Web的官方GitHub页面(https://github.com/WeiYe-Jing/datax-web)下载最新版本。使用以下命令将其下载到您的Linux系统中: ``` wget https://github.com/WeiYe-Jing/datax-web/archive/refs/tags/vx.x.x.tar.gz ``` 3. 解压DataX Web:使用以下命令解压下载的DataX Web压缩包: ``` tar -zxvf vx.x.x.tar.gz ``` 4. 安装依赖:进入解压后的DataX Web目录,使用pip安装所需的依赖包: ``` cd datax-web-x.x.x pip3 install -r requirements.txt ``` 5. 配置DataX Web:编辑`config.py`文件,根据您的需要配置数据库连接等信息。 6. 初始化数据库:使用以下命令初始化数据库: ``` python3 manage.py db init python3 manage.py db migrate python3 manage.py db upgrade ``` 7. 启动DataX Web:使用以下命令启动DataX Web服务: ``` python3 manage.py runserver ``` 现在,您可以通过访问`http://localhost:8888`在浏览器中访问DataX Web界面,并使用DataX Web来执行和管理数据迁移任务。 希望对您有所帮助!如有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值