datax 导入数据中文乱码_DataX数据共享平台

最新推荐文章于 2024-07-17 15:25:01 发布

fanvie

最新推荐文章于 2024-07-17 15:25:01 发布

阅读量742

点赞数

文章标签： datax 导入数据中文乱码

本文链接：https://blog.csdn.net/weixin_35924003/article/details/112243318

版权

随着信息时代的不断发展，不同部门、不同地区间的信息交流逐步增加，计算机网络技术的发展为信息传输提供了保障。在网络上出现大量的空间数据，面对多种多样的数据格式，我们怎样才能有效地利用它们呢？如何解决数据共享与数据转换的问题呢？

PDX DataX 数据共享平台,可让在不同地方使用不同计算机、不同软件的用户能够读取选定的数据并进行各种操作运算和分析。做到 “原始数据不离属地，业务模型用过即删，审批审核自动智能，共享流程安全可信“，能够盘活大数据的可控、有偿共享和人工智能生态。

如上图，选择已有的数据资源，模型和算力(服务器、PC机、智能手机、大数据或结构化数据发布计算的资源)，启动Datax就可以自动进行各种操作运算和分析，发布执行资源合约能做到整个流程审批审核，自动的形成智能得出所需要的结果。可实现跨部门、跨行业的数据、模型、算力、存储等的可控、有偿共享。整个流程完全的安全可信，交易执行合约后会自动的支付合约。

Datax证书

PDX DataX获得计算机软件著作权登记证书。可盘活大数据共享和人工智能生态，原始数据不离属地，业务模型用过就删，审批审核自动智能，整个流程完全可信。

PDX DataX数据共享平台荣获由赛迪区块链研究院颁发的“2019年中国优秀区块链解决方案奖”。

DataX使用指南

创建和导入钱包

PDX DataX首页，可以选择创建钱包或导入钱包。

在首页点击【导入钱包】, 输入钱包私钥,点击【开始导入】:

查看任务

进入【我的任务】展示页面, 可根据订单号或者任务名称或者发布时间或者任务状态查询自己的发布的任务, 执行成功的任务,可查看详情,执行进度以及下载结果:

发布任务

1. 点击【发布任务】,进入发布任务的流程，输入任务的名称,点击【下一步】：

2.进入模型选择页面，可选择平台资源模型,也可选择上传自己的模型二者可选其一,也可都选,点击【我的模型】可自行上传模型:

3. 填入相关信息:模型的名称、上传到哪个节点(节点IP)、模型描述、数据类型、安全等级、用户Token(根据要求自定义),需上传的文件，点击【下一步】：

4.跳至选择模型页面,点击【下一步】进入数据选择页面, 可选择的数据资源的数据类型和上一步选择的模型的数据类型一致:

5. 可选择平台资源数据(如上图),也可选择上传自己的数据,二者可选其一,也可都选,点击我的数据可自行上传数据，点击【确定】:

6.跳转至数据选择页面, 点击下一步进入算力选择页面,选择算力后，点击【下一步】

7进入预览，可见选择的模型、数据和算力，点击【提交发布】,任务提交,开始执行。

发布资源

1. 在图中点击【我的资源】,展示自己已发布过的资源, 可根据名称,节点ip,发布时间,类型进行筛选,对于展示出的资源可以查看详情可以修改:

2.输入相关信息，点击【发布资源】进行资源发布:

资源类型:模型或是数据；名称:资源名称；基本信息:资源描述；节点ip:资源所在的ip；节点公钥:自定义；文件路径:资源所在节点的绝对路径；数据类型:目前为MySQL和hadoop。

平台资源

在【平台资源】,可查看平台上所有的资源:

Datax部署

**发布数据资源**:

发布数据资源后需在 /pdx/datax/conf/resources/data/txid(资源列表点击查看获取)/下拷贝自己的检测脚本,检测程序,执行脚本,执行程序,导出脚本,导出程序(例:inspector.sh，inspector.jar，executor.sh，executor.jar，exporter.sh，exporter.jar)。

###在执行任务过程中,需要检测,执行,导出审核三个阶段：

**检测**:

#####检测对象为模型,上传模型,上传数据。

#####datax为检测程序提供四个入参：

* 1.任务ID(jobId) 返回值使用；

* 2.上传数据的路径(inputFolder):根据此路径可找到上传的数据资源；

* 3.模型的路径(modelFolder):根据此路径可找到模型；

* 4.检测结果指定的文件路径(outFile).程序按照作者的逻辑检测上传的数据和模型之后,将结果写此文件。

检测脚本:

datax使用此脚本启动检测程序。

```

例:

#!/bin/bash

basedir=`cd $(dirname $0); pwd -P`

java -jar $basedir/inspector.jar $1 $2 $3 $4

```

######检测结果(outFile内容):

```

{jobId}#{code}#{reason}，其中code为0表示成功。

例:jobId#0#success

```

---

**执行**:

##### datax为执行程序提供四个入参:

* 1.任务ID(jobId)执行结束后jobId作为接口参数,调用接口,把结果处理请求放入队列以便后续导出审核；

* 2.数据资源的路径(inputFolder):根据此路径可找到数据资源；

* 3.模型的路径(modelFolder):根据此路径可找到模型；

* 4.检测结果指定的文件路径(outputFolder).程序按照作者的逻辑讲执行结果输出到此文件。

######执行脚本:datax使用此脚本启动执行程序。

```

例：

#!/bin/bash

JOB_ID=$1

INPUT_FILE=$2

MODEL_FOLDER=$3

OUTPUT_FOLDER=$4

HADOOP_HOME=/pdx/hadoop-2.7.7

echo -e " start process data ... "

rm -r $OUTPUT_FOLDER

$HADOOP_HOME/bin/hadoop jar $MODEL_FOLDER wordcount $INPUT_FILE $OUTPUT_FOLDER

echo -e " start recall datax service "

curl -X POST --header 'Content-Type: application/json' --header 'Accept: application/json' 'http://localhost:8100/data/submitConfirmJob?result='$JOB_ID'%230%23success'

```

注意:必须在脚本执行结束的时候调用http://localhost:8100/data/submitConfirmJob?result='$JOB_ID'%230%23success'接口。

例子：

```

curl -X POST --header 'Content-Type: application/json'--header 'Accept:application/json' 'http://localhost:8100/data/submitConfirmJob?result='$JOB_ID'%230%23success'

```

---

**导出审核**

#####datax为导出程序提供四个入参:

* 1.任务ID(jobId) 返回值使用；

* 2.数据资源的路径(inputFolder):根据此路径可找到数据资源；

* 3.执行结果的文件路径(outputFolder).可找到执行结果；

* 4.导出审核的文件(outFile).结果文件。

#####导出脚本:datax使用此脚本启动导出程序。

```

例: #!/bin/bashbasedir=`cd $(dirname $0); pwd -P`java -jar $basedir/exporter.jar $1 $2 $3 $4

导出内容(outFile文件内容):

{jobId}#{code}#{reason}，其中code为0表示成功。

例:jobId#0#success

```

fanvie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫