datacleaner使用文档-170904-01

最新推荐文章于 2024-05-14 17:20:24 发布

SunWuKong_Hadoop

最新推荐文章于 2024-05-14 17:20:24 发布

阅读量4.8k

点赞数

分类专栏： datacleaner

本文链接：https://blog.csdn.net/SunWuKong_Hadoop/article/details/77483411

版权

datacleaner 专栏收录该内容

15 篇文章 4 订阅

订阅专栏

第一部分：

1.添加组件：transformer、analyzer、filter

（有存档）

capture changed record：捕捉更改记录

data range：数据范围

2.datacleaner监视器（待补充·············）

第二部分：

1。重复检测函数

重复检测函数的主要特点是:

高质量的——质量是匹配的特点,我们重复检测特性提供了这个承诺。
可伸缩的——大型数据集重复检测利用Hadoop框架几乎无限的可伸缩性。
快速和互动在单个机器上——你可以快速、交互地完善您的重复检测模型。
国际——国际数据支持和没有区域知识编码成重复数据删除引擎——你提供外部的业务规则。
基于机器学习的——重复检测引擎配置示例。在一系列的训练可以改进重复数据删除模型简单地通过对话与工具是什么,什么不是复制的一个很好的例子。

提示：

重复检测是否适合使用原始数据。但是如果你有脏数据和数据注册方式有很大的差异,我们建议你首先尽力标准化之前找到重复的数据。标准化可以通过修剪,分词,去掉不需要的字符,替换同义词之类的东西

2.模型训练模式（待补充················），暂时还没找到位置，本人设置有问题。

duplicate detection（重复检测）位置：

3.同义词（没找到他的闪光点，待补充）

4.分析，analyze

Concatenate 组件功能：将几个列值连接到一个。

例子：（有存档）

执行结果：

分析组件：

Boolean，completeness，character set distribution，date gap，date/time，number，pattern finder等

组件功能：

布尔（Boolean analyze）分析（待补充）；

完整性（completeness analyze）分析可理解为跨多个字段的“非空”检查；

字符集分布（character set distribution analyze）分析根据字符集关联来检查和映射文本字符，比如拉丁文，希伯来语，西里尔语，汉语等等；

日期空隙（date gap analyze）是用于标识缺失记录时间序列（待补充）；

日期/时间（date/time analyze）分析为类似于日期、时间和时间戳列等时间列类型提供通用分析指标；

数字（number analyze）分析为数值列类型提供了通用分析指标：mean（平均值），Geometric mean（几何平均数），standard deviation（标准偏差），variance（方差），Second moment（二次矩），Sum of squares（平方和）；

模式/格式搜索（pattern finder）：

参考数据匹配器（reference data matcher）：The 'Reference data matcher' analyzer provides an easy means to match several columns against several dictionaries and/or several string patterns. The result is a matrix of match information for all columns and all matched resources.

对一些字典和/或几个字符串模式匹配多个列。结果是一个所有列和匹配资源的匹配信息矩阵。

参照完整性（Referential integrity）：检查记录之间的关键关系是否完整，单表，多表，多个数据存储的表等的关系。（功能：字典表参照校验，以一张表为字典表，两张表之间进行匹配，未匹配上的高亮显示与图中标红处，右上角：save dataset（as datastore没找到存在了哪里，(⊙﹏⊙)b））

字符串（string analyze）：为字符串列类型提供了通用分析指标

blank count（统计空白值的个数），entirely uppercase count（全部大写字母），字符总数（字符总数）等等。

unique key check（唯一键检查）：验证键/ id是独一无二的——通常是预期

缓冲区大小：（基于内存的运行环境大小）The buffer represents the internal resource for sorting and comparison of keys. Having a large buffer makes the analyzer run faster and take up fewer resources on disk, but at the expense of using memory. If your job is not already memory intensive, we recommend increasing the buffer size up to 1M.

value distribution（值分布/频率分布）：record unique values （记录唯一的值），drill-down（向下钻取）。（功能待补充·······················）

value matcher（值匹配）：

The value matcher works very similar to the Value distribution , except for the fact that it takes a list of expected values and everything else is put into a group of 'unexpected values'. This division of values means a couple of things:

1. You get a built-in validation mechanism. You expect maybe only 'M' and 'F' values for your 'gender' column, and everything else is in a sense invalid, since it is unexpected.

2. The division makes it easier to monitor specific values in the data quality monitoring web application.

3. This analyzer scales much better for large datasets, since the groupings are deterministic and thus can be prepared for in the batch run.

case sensitive matching（区分大小写的匹配）

white space sensitive matching（空白区域敏感匹配）

weekday distribution（工作日分布）、month distribution、year distribution、week number distribution

结果展示：

第七章：write

1.创建csv文件

2.创建escel

3.创建临时表

4.插入表

支持下列存储类型：csv，excel，关系型数据库，couchDB，mongoDB，salesforce.com，ES index。

5.更新表

第三部分

字典，同义词，字符串（正则）（待补充）

第四部分

1.XML schema：config.xml

2.datastore：< datastore-catalog >

3.database（JDBC）connections

MySQL

<jdbc-datastore name="MySQL datastore"> <url>jdbc:mysql://hostname:3306/database?defaultFetchSize=-2147483648</url> <driver>com.mysql.jdbc.Driver</driver> <username>username</username> <password>password</password> <multiple-connections>true</multiple-connections> </jdbc-datastore>

oracle

<jdbc-datastore name="Oracle datastore"> <url>jdbc:oracle:thin:@hostname:1521:sid</url> <driver>oracle.jdbc.OracleDriver</driver> <username>username</username> <password>password</password> <multiple-connections>true</multiple-connections> </jdbc-datastore>

Microsoft SQL Server

<jdbc-datastore name="MS SQL Server datastore"> <url>jdbc:jtds:sqlserver://hostname/database;useUnicode=true;characterEncoding=UTF-8</url> <driver>net.sourceforge.jtds.jdbc.Driver</driver> <username>username</username> <password>password</password> <multiple-connections>true</multiple-connections> </jdbc-datastore>

如果您想使用基于实例名的连接，那么SQL Server浏览器服务必须运行，然后您可以包括实例参数:下面是一个连接到SQLEXPRESS实例的示例:

<url>jdbc:jtds:sqlserver://hostname/database;instance=SQLEXPRESS;useUnicode=true;characterEncoding=UTF-8</url>

4.逗号分隔值（csv文件）详情移步另一篇帖子··························

（datacleaner第四部分：http://blog.csdn.net/SunWuKong_Hadoop/article/details/76527923）

第13章：日志

SunWuKong_Hadoop

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
datacleaner使用文档-170904-01

第一部分：1.添加组件：transformeranalyzerfilter（有存档）capture changed record：捕捉更改记录data range：数据范围2.datacleaner监视器（待补充·············）第二部分：1。重
复制链接

扫一扫