Datacleaner译文修改版目录

参考文档

4.5

本文档的副本可以供自己使用和分发给别人,只要你不收取任何费用(副本和进一步提供,每个副本包含版权声明,是否分布在打印或电子。


表的内容

即DataCleaner概论
1。背景和概念
数据质量(DQ)是什么? 什么是数据分析? 什么是数据整理? 什么是数据存储?
综合数据存储
什么是数据监控? 主数据管理(MDM)是什么?
2。开始使用DataCleaner桌面
安装桌面应用程序 连接到你的数据存储 将组件添加到工作 将组件结合在一起
Transformer  输出 过滤器的要求 输出数据流
执行工作 Saving and opening jobs 模板工作 洁净的数据写入文件
3。开始使用DataCleaner监视器
安装监视web应用程序 在Windows上创建资源文件夹
连接到你的datastore 建立一个工作 调度工作 在仪表板上添加度量图表
二。分析组件引用
4。Transform
JavaScript transformer 调用子分析工作 Equals 最大行 非空 Union
5。Improve
重复检测
“模型训练 (Model training)”模式 “检测(Detection)模式 未经训练的检测(Untrained detection)模式
合并复制
合并复制 结论
同义词查找 DE movers and deceased check 
地址和邮件抑制数据源 输出
英国搬家公司、死亡和邮件首选项检查
地址和邮件抑制数据源 输出
我们搬家公司,死者和do-not-mail检查
地址和邮件抑制数据源 输出
查表 国家标识符 姓名和地址更正
6。分析,分解
逻辑分析仪 完整性分析仪 字符集分布 日期差距分析仪 日期/时间分析器 数字分析仪 模式搜索 参考数据匹配器 参照完整性 字符串分析仪 唯一键检查 值分布 价值匹配器 工作日的分布
7。写
创建CSV文件 创建Excel电子表格 创建临时表 插入表 更新表
三。参考数据
8。字典 9。同义词(又名。同义词目录)
同义词的文本文件目录 数据存储同义词目录
10。字符串的模式
四。配置参考
11。配置文件
XML模式 数据存储
数据库(JDBC)连接 逗号分隔值(CSV)文件 固定宽度值文件 Excel电子表格 XML文件数据存储 ElasticSearch指数 MongoDB数据库 CouchDB数据库 综合数据存储
参考数据
字典 同义词目录 字符串的模式
任务 runner 存储 provider
12。分析工作文件
XML schema 源节
13。日志记录
日志配置文件 默认的日志配置 修改日志级别 选择日志输出
14。数据库驱动程序
安装在DataCleaner桌面数据库驱动程序 安装数据库驱动程序在DataCleaner监视器
五。DataCleaner监控存储库
15。存储库配置
配置存储库位置
目录的存储库 数据库支持的库
提供已签署的Java WebStart客户端文件
制造已签名的jar 配置DataCleaner监视器以使用已签名的jar
集群配置(分布式执行)
16。仓库布局
多租户的布局 租户家里的布局
VI。DataCleaner监视web服务
17。工作引发
触发服务 轮询执行状态
18。库导航
工作文件 结果文件 上传内容存储库 修改结果的元数据 重命名工作 复制工作 删除工作
19。度量web服务
指标的背景 可用的指标列表 特定的度量指标的值
20。原子转换(数据清洗服务)
原子转换服务是什么? 调用原子转换
七。从命令行调用DataCleaner工作
21。命令行界面
可执行文件 使用场景 执行分析工作 清单数据存储内容和可用的组件 可参数化的工作 动态覆盖配置元素 22。Apache Hadoop和Spark接口
Hadoop部署概述 设置Spark和DataCleaner环境
上载配置文件到HDFS 上传作业文件到HDFS 将可执行文件上传到HDFS
使用Spark启动DataCleaner作业 使用Hadoop DataCleaner桌面
配置Hadoop集群 CSV数据存储在HDFS Hadoop集群上运行作业
使用Hadoop DataCleaner监视器
CSV数据存储在HDFS Hadoop集群上运行作业
Hadoop接口的局限性
八。第三方集成
22。Pentaho集成
配置DataCleaner Pentaho数据集成 发射DataCleaner概要Pentaho数据集成的步骤 运行Pentaho在DataCleaner监控数据集成工作 运行在Pentaho DataCleaner工作数据集成
九。开发人员指南
23。体系结构
数据访问 处理框架
24。通过代码执行的工作
概述的步骤和选项 步骤1:配置 步骤2:工作 步骤3:执行 步骤4:结果
25。开发人员资源
扩展开发教程 建筑DataCleaner
26岁。扩展包装
带注释的组件 单一JAR文件 扩展元数据的XML 组件的图标
27。扩展包装
带注释的组件 单一JAR文件 扩展元数据的XML

组件的图标

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值