参考文档 4.5 版权©2008 - 2015 本文档的副本可以供自己使用和分发给别人,只要你不收取任何费用(副本和进一步提供,每个副本包含版权声明,是否分布在打印或电子。 表的内容 即DataCleaner概论 1。背景和概念 数据质量(DQ)是什么? 什么是数据分析? 什么是数据整理? 什么是数据存储? 综合数据存储 什么是数据监控? 主数据管理(MDM)是什么? 2。开始使用DataCleaner桌面 安装桌面应用程序 连接到你的数据存储 将组件添加到工作 将组件结合在一起 Transformer 输出 过滤器的要求 输出数据流 执行工作 Saving and opening jobs 模板工作 洁净的数据写入文件 3。开始使用DataCleaner监视器 安装监视web应用程序 在Windows上创建资源文件夹 连接到你的datastore 建立一个工作 调度工作 在仪表板上添加度量图表 二。分析组件引用 4。Transform JavaScript transformer 调用子分析工作 Equals 最大行 非空 Union 5。Improve 重复检测 “模型训练 (Model training)”模式 “检测(Detection)模式 未经训练的检测(Untrained detection)模式 合并复制 合并复制 结论 同义词查找 DE movers and deceased check 地址和邮件抑制数据源 输出 英国搬家公司、死亡和邮件首选项检查 地址和邮件抑制数据源 输出 我们搬家公司,死者和do-not-mail检查 地址和邮件抑制数据源 输出 查表 国家标识符 姓名和地址更正 6。分析,分解 逻辑分析仪 完整性分析仪 字符集分布 日期差距分析仪 日期/时间分析器 数字分析仪 模式搜索 参考数据匹配器 参照完整性 字符串分析仪 唯一键检查 值分布 价值匹配器 工作日的分布 7。写 创建CSV文件 创建Excel电子表格 创建临时表 插入表 更新表 三。参考数据 8。字典 9。同义词(又名。同义词目录) 同义词的文本文件目录 数据存储同义词目录 10。字符串的模式 四。配置参考 11。配置文件 XML模式 数据存储 数据库(JDBC)连接 逗号分隔值(CSV)文件 固定宽度值文件 Excel电子表格 XML文件数据存储 ElasticSearch指数 MongoDB数据库 CouchDB数据库 综合数据存储 参考数据 字典 同义词目录 字符串的模式 任务 runner 存储 provider 12。分析工作文件 XML schema 源节 13。日志记录 日志配置文件 默认的日志配置 修改日志级别 选择日志输出 14。数据库驱动程序 安装在DataCleaner桌面数据库驱动程序 安装数据库驱动程序在DataCleaner监视器 五。DataCleaner监控存储库 15。存储库配置 配置存储库位置 目录的存储库 数据库支持的库 提供已签署的Java WebStart客户端文件 制造已签名的jar 配置DataCleaner监视器以使用已签名的jar 集群配置(分布式执行) 16。仓库布局 多租户的布局 租户家里的布局 VI。DataCleaner监视web服务 17。工作引发 触发服务 轮询执行状态 18。库导航 工作文件 结果文件 上传内容存储库 修改结果的元数据 重命名工作 复制工作 删除工作 19。度量web服务 指标的背景 可用的指标列表 特定的度量指标的值 20。原子转换(数据清洗服务) 原子转换服务是什么? 调用原子转换 七。从命令行调用DataCleaner工作 21。命令行界面 可执行文件 使用场景 执行分析工作 清单数据存储内容和可用的组件 可参数化的工作 动态覆盖配置元素 22。Apache Hadoop和Spark接口 Hadoop部署概述 设置Spark和DataCleaner环境 上载配置文件到HDFS 上传作业文件到HDFS 将可执行文件上传到HDFS 使用Spark启动DataCleaner作业 使用Hadoop DataCleaner桌面 配置Hadoop集群 CSV数据存储在HDFS Hadoop集群上运行作业 使用Hadoop DataCleaner监视器 CSV数据存储在HDFS Hadoop集群上运行作业 Hadoop接口的局限性 八。第三方集成 22。Pentaho集成 配置DataCleaner Pentaho数据集成 发射DataCleaner概要Pentaho数据集成的步骤 运行Pentaho在DataCleaner监控数据集成工作 运行在Pentaho DataCleaner工作数据集成 九。开发人员指南 23。体系结构 数据访问 处理框架 24。通过代码执行的工作 概述的步骤和选项 步骤1:配置 步骤2:工作 步骤3:执行 步骤4:结果 25。开发人员资源 扩展开发教程 建筑DataCleaner 26岁。扩展包装 带注释的组件 单一JAR文件 扩展元数据的XML 组件的图标 27。扩展包装 带注释的组件 单一JAR文件 扩展元数据的XML 组件的图标 28。嵌入DataCleaner