datacleaner第二部分，四、五、六、七章

最新推荐文章于 2024-05-15 09:49:54 发布

SunWuKong_Hadoop

最新推荐文章于 2024-05-15 09:49:54 发布

阅读量1.4k

点赞数 2

分类专栏： datacleaner

datacleaner 专栏收录该内容

15 篇文章 4 订阅

订阅专栏

第二部分。分析组件引用

表的内容

4所示。变换

JavaScript变压器调用子分析工作 = 马克斯行非空联盟

5。改��

重复检测

“模型训练”模式 “检测”模式未经训练的检测模式

合并复制

合并复制结论

同义词查找 DE行动者和已故的检查

地址和邮件抑制数据源输出

英国搬家公司、死亡和邮件首选项检查

地址和邮件抑制数据源输出

我们搬家公司,死者和do-not-mail检查

地址和邮件抑制数据源输出

查表国家标识符

姓名和地址更正

6。分析

逻辑分析仪完整性分析仪字符集分布日期差距分析仪日期/时间分析器数字分析仪模式搜索参考数据匹配器参照完整性字符串分析仪唯一键检查值分布价值匹配器工作日的分布

7所示。写

创建CSV文件创建Excel电子表格创建临时表插入表更新表

第四章。变换

文摘

使用转换可以预处理和后处理数据作为DQ项目的一部分。

技术上来说有两种转换:变形金刚和过滤器。变压器用于提取,生成或细化数据(新的列和有时也行),而过滤器是用来限制或数据集分割成单独的处理流。

有很多可用的转换在DataCleaner,超过将可行的详细描述所有。本章提供了一些基本的文档。

表的内容

JavaScript变压器调用子分析工作 = 马克斯行非空联盟

JavaScript变压器

JavaScript变压器允许用户定义他/她自己的脚本,可以执行相当复杂的调节、循环。它也可以用来表达业务规则。

对于本文档,完整的JavaScript的参考范围。但我们将展示几个例子,更重要的是讨论可用的变量及其类型。

JavaScript变压器返回一个字符串。进入脚本应该提供这个字符串作为脚本的最后一行。这就是为什么模板脚本如下(所以你可以实现eval()函数):

function eval() { return \"hello \" + values[0]; } eval();

变量:

变量	描述
值	数组中所有值的行“列”属性(映射)。如使用“价值观”您可以参考。第一个和第三个值是这样的: var first = values[0]; var third = values[2]; 请注意,基于JavaScript数组。而不是索引也可以引用的列名称,如下: var idValue = values["id"];
column_name *	任何列名称也是一个有效的JavaScript和不保留变量名也将直接添加到脚本的变量范围。例如,如果你有两列,FIRST_NAME和LAST_NAME,可以轻松地将它们,像这样: var fullname = FIRST_NAME + " " + LAST_NAME;
出	一个参考系统控制台的“出去”流。如果用控制台运行DataCleaner可见,你可以打印消息到控制台,像这样: out.println("Value: " + values[0]);
日志	��用日志子系统。可以配置日志和日志消息存储在文件中,这使得它更灵活的不仅仅是使用“了”。这是你如何写一些日志消息不同严重程度: log.debug("This is a DEBUG message, it will probably be disregarded"); log.info("This is a INFO message, it will probably be written to the logs"); log.warn("This is a WARN message, it will most likely be written to the logs"); log.error("This is a ERROR message, it will almost certainly be written to the logs");

数据类型:

数据类型	描述
字符串	字符串值表示为JavaScript字符串,这意味着他们有()方法: var str = values[0]; // get the length of a string var len = str.length(); // uppercase variant of a string var up = str.toUpperCase(); // lowercase variant of a string var lw = str.toLowerCase(); 更多的信息,我们建议W3学校JavaScript字符串引用 .
数量	只是当作常规的JavaScript的数字,这意味着他们有()方法和运算符: var num = values[0]; // format with 2 decimals var formattedNumber = num.toFixed(2); // add, subtract, multiply or divide var m = (4 + num * 2 - 1) / 2; 更多的信息,我们建议W3学校JavaScript参考数量并检查数学函数参考。
日期	日期值作为Java日期,这有点不寻常,但让你几乎相同的接口作为常规的JavaScript。这里有一个典型方法的总结: var d = values[0]; var year = d.getYear(); var month = d.getMonth(); var date = d.getDate(); var hour = d.getHour(); var minutes = d.getMinutes(); var seconds = d.getSeconds(); // milliseconds since 1970-01-01 var timestamp = d.getTime(); 一个完整的参考,请看看Java日期类引用 .
布尔	布尔(真/假)值是简单的布尔值,没有糖衣补充道:)

调用子分析工作

这种转换是可能的组合的工作嵌入功能从另一个保存工作。

调用的工作将被剥夺它的分析部分,这意味着只有转换仍然存在。这样你可以分割复杂转换流成小块,每个代表的工作文件。

配置转换,从你目前的工作选择的列的来源需要输送到孩子的工作。列的数量选择需要相同数量的列中定义的孩子工作。这将是自动检查,从而无法运行转换。

=

的 =过滤器提供了一种方法来做一个简单的基于白名单过滤条件/有效的值列表。只需输入一个值列表,你接受对于一个给定的列,然后你可以你流映射到有效的过滤结果。

这是等于过滤器配置的一个例子,有效的性别值进行检查。

增长或减少使用+ / -按钮你想接受的列表值。

如果放置第一个组件在一个流,optimizable =过滤器的方式将修改原始查询。这意味着它也是一个适当的过滤器使用如果你只想样本数据用于自己的工作。

马克斯行

的马克斯行过滤器是用来限制记录通过进一步的工作流程。

如果放置第一个组件在一个流,optimizable马克斯行��滤器在某种程度上,这将修改原始查询。这意味着它也是一个适当的过滤器使用如果你只想样本数据用于自己的工作。

非空

的非空过滤器是一个简单的过滤器,它可以用来排除null值从你流。另外你可以选择是否你想接受空字符串(" ")。

如果放置第一个组件在一个流,optimizable Not null过滤器的方式将修改原始查询。这意味着它也是一个适当的过滤器使用如果你只想样本数据用于自己的工作。

联盟

的联盟变压器允许你将多个流合并成一个。提供相当于表的一个联盟。用它来融合来自不同源表的数据流。你可以定义新的字段的值代表任何可用的输入流。

下面是一个例子的一份工作联盟转换和综合数据存储。复合数据存储包含几个数据源,每个国家都有客户信息。工会变压器在这个例子旨在结合这些数据源的单个表的数据可以使用记录所有的来源。

联盟转换的配置是通过排队列的来源应该结合。所示的示例中“CUSTOMERNUMBER”和“id”组合成一个新领域。同样“CUSTOMERNAME”和“family_name”相结合等等。

第五章。改善

文摘

“改善”的功能树都是我们描述为一流的“数据质量功能”。他们通常不仅分析问题,还提出一个解决方案。

表的内容

重复检测

“模型训练”模式 “检测”模式未经训练的检测模式

合并复制

合并复制结论

同义词查找 DE行动者和已故的检查

地址和邮件抑制数据源输出

英国搬家公司、死亡和邮件首选项检查

地址和邮件抑制数据源输出

我们搬家公司,死者和do-not-mail检查

地址和邮件抑制数据源输出

查表国家标识符

姓名和地址更正

重复检测

重复检测的函数允许你做模糊匹配重复的记录——记录表示同一个人,组织,产品或其他实体。

重复检测函数的主要特点是:

高质量的——质量是匹配的特点,我们重复检测特性提供了这个承诺。
可伸缩的——大型数据集重复检测利用Hadoop框架几乎无限的可伸缩性。
快速和互动在单个机器上——你可以快速、交互地完善您的重复检测模型。
国际——国际数据支持和没有区域知识编码成重复数据删除引擎——你提供外部的业务规则。
基于机器学习的——重复检测引擎配置示例。在一系列的训练可以改进重复数据删除模型简单地通过对话与工具是什么,什么不是复制的一个很好的例子。

提示

重复检测是否适合使用原始数据。但是如果你有脏数据和数据注册方式有很大的差异,我们建议你首先尽力标准化之前找到重复的数据。

标准化可以通过修剪,分词,去掉不需要的字符,替换同义词之类的东西。探索中可用的转换DataCleaner为了得到你的数据清洗之前试图删除处理。

在下面几个部分中,我们将介绍如何使用重复检测的功能。函数有三种模式:训练模型,检测和未经训练的检测。

“模型训练”模式

在模型训练模式用户重复检测的希望火车机器学习引擎。模型训练模式中运行时你的工作你会表现出许多潜在的对重复记录,并确定它们是否重复。

开始训练模式,只需添加功能,选择您希望使用的列匹配。另外你可能会希望配置:

财产	描述
马克斯培训记录	培训工具将内存中的数据集提供的随机样本训练输入,和交互式用户体验。这个数字决定了有多少记录将被选择对于此示例。
键列	如果您的数据集有一个独特的关键,我们鼓励您使用这个属性来选择它。配置键列的好处是:如果你想出口一个培训参考后,它可以很容易地中时。

与大多数其他分析仪在DataCleaner执行后结果显示屏幕,当开始训练模式打开一个新的对话框。培训工具对话框允许用户培训匹配模型。对话框的顶部包含一个按钮栏。下面的按钮栏、训练工具显示了一些选项卡按钮。默认情况下潜在的副本将被显示。为每一个潜在的重复可以切换按钮右边来确定他们是否重复:

帮助你,具有相等的值的列所示一个灰色字体,而不同的值显示在黑色的。

右键单击分类按钮打开一个小菜单,允许你马克(剩余的)这个页面上的所有例子在所有页面或所有例子犹豫不决,重复或暗金物��。这有助于在几乎所有的例子都是重复或暗金物品。可以马克所有的例子重复审查,只有切换没有重复的例子。

你不需要对所有样本进行分类。推荐使用:

分类至少20 - 30重复对或更多(越多越好)
至少20 - 30独特的记录进行分类或更多(越多越好)

一旦你分类记录可以按“培养模式”按钮在右上角。这将优化匹配模型,并提出一个新的有趣的潜在的重复。你可以继续这样,很快就有分类所需的对。

每次训练后,模型自动保存。不需要手动保存模型。保存的模型包括匹配规则,设置,和所有对用户列为重复或独一无二的。

培训的一些提示:

分类是一样重要的独立分类重复。不断重复的例子和独特的例子的数量大致相等。
试图找到每个重复的类别和马克的一些例子,你知道的。您可以使用“搜索配对”工具来帮助你。
有时机器学习变得扭曲和不提供一个类别的例子重复的记录或独特的记录。在这些情况下,关闭然后重新打开培训工具如下所述,但做的不按火车模型按钮。训练工具显示了一个不太专业设置重复的样本。现在,您应该可以找到的例子所需要的类别添加到模型中。

所有的重复检测模型可能有违规行为。当你问一个电脑做这样一个复杂的任务匹配,它可能提出一个分类模型,有轻微的差异。你可以检查当前模型的区别分类选项卡“不符点”。

每次你重复进行分类,将其添加到参考的训练。你可以检查你的完整的参考标签重复引用。

如果你正在寻找特定类型的重复的例子,你可能想要去“搜索配对”选项卡。在该选项卡中你会发现选择搜索与匹配或不匹配的值为特定领域的记录。这可能是一个非常有用的快捷方式寻找适当的重复的例子。

最后,标签的训练参数的礼物按钮,滑块对你影响的机器学习方法。

移动滑块向左使顶部重复检测比较更多的记录。这将需要更多的时间,而且提高匹配质量。这个滑块向右移动使得重复检测比较少,导致更高的速度,但会导致错过了比赛(假阴性)。

向左移动滑块底部使比较的记录更严格。这个滑块移动到正确的更宽松。

用户定义的规则使您能够执行固定的规则。下面列出了可能的固定的规则类型。可以将规则应用到每一列。规则,迫使一对是唯一的优先于规则,迫使一对被复制。空值视为不同。

部队对时复制=——两人总是重复如果任何列标注这个值是相等的。
部队对时独特=——两人从来都不是重复的,如果任何列标注这个值是不同的。
部队成对时唯一的不同——两人从来都不是重复的,如果任何列标注这个值是不同的
部队对复制时=和独特的不同——两人从来都不是重复的,如果任何列标注这个值是不同的,但对总是重复如果所有列标注这个值是相等的。
部队对独特当=和独特的不同——两人从来就不是一个复制,除非价值的记录是空的。

我们建议应用固定规则只有在训练模型,只有在严格的必要。

后更新匹配模型,用户可以继续在2方面。如果用户满意模型(一些假阳性和假阴性)然后他可以节省重复检测的模型,并开始使用它。否则,用户可以提出更多的样本进行分类和细化模型。

更多的培训通常允许一个更高级的匹配模型,能够处理更多的角落病例。假阴性和假阳性列表给一个好印象的当前状态的匹配模型。用户应该继续训练,直到这些列表的差异是可以接受的。

验证培训结果和获得的最佳模式,培训可以重复在不同的样本。已经分类记录对将自动被添加到新样品。

关闭训练工具。
重新运行培训工具。将生成一个新的样本。所有标记对保存的引用会自动包含在新的样品。
按“培养模式”按钮的训练��具。这将列车现有参考模型。
您可以查看差异(假阳性、假阴性)的训练模式对记录的新样品。
你可以检查潜在的重复重复来确定一个类别是失踪。
根据需要添加更多的对参考。

“检测”模式

当匹配模型完成后就可以找到所有数据集的副本。使用相同的重复检测组件,但改变执行模式在“重复检测”。

运行工作时,您将看到一个完全组重复,重复检测结果如下:

一旦你有了重复检测结果,您希望后处理,如手动检查,您可以导出结果通过点击“写副本”按钮在屏幕顶部的结果。你可以节省重复的记录,记录以及独特的重复对你选择的数据存储表。或者你可以创建一个excel文件或一个临时表。

提示

现在可以直接提要结果合并,使用新的数据流特性。你可以阅读更多关于文档的链接在一起合并复制

重复检测分析仪可以运行独立找到副本在半到100万条记录的数据集(取决于数量的列)。对于更大的数据集,重复检测组件可以结合使用一个Hadoop服务器组件。这个服务器组件是一个企业版的特性。

未经训练的检测模式

最后,还有一个未经训练的检测模式。这允许您跳过“模型训练”,要求应用程序做最好的努力没有任何合适的模型。这种模式不推荐用于生产被认为是“实验”,但可能提供一个伟大的快速印象的一些重复你的数据集。

合并复制

合并复制后下一步检测数据集。它有助于恢复的单个版本的真实数据结合信息从所有重复的记录代表相同的物理实体。

在本节中,我们假设从上一节的步骤重复检测已经完成,和你有一份工作重复检测分析仪准备。

合并复制

在改进菜单,重复数据删除子菜单,有两个组件用于合并复制到一个单独的记录,合并重复(简单的)和合并复制(高级)。只选择一个简单版本记录组的重复而先进一个允许用户记录结合起来,采取一些值从一个记录,从另一个。在这个例子中,我们将使用简单的版本。

添加“合并重复的(简单)“变压器的工作,配置新组件。变化范围 “重复检测:重复的和独特的行”。现在点击“选择所有”,然后禁用四合成列记录id,组id, 组大小和组得分.

设置属性组id的列组id,房地产组数的列组大小.

由此产生的配置应该是这样的。

合并重复(简单的)变压器将输出所有的输入列输出+额外科勒姆带着元数据记录。其中一个是“合并状态”,可以有三个可能的值:幸存者,NON_SURVIVOR和独特的。

幸存者记录记录有重复,但被选为代表的重复组,因此应该“生存”。
NON_SURVIVOR记录有重复的记录,但在另一个记录被选为重复组的代表。这些记录不应使用。
独特的记录是记录,从来没有任何副本。

让我们添加一个等于过滤器的工作只为了写这些幸存者和独特的记录,来创建一个数据集,没有重复。

滤波器的输出保存到一个新的临时表。

警告

与重复检测不同的是,“合并重复”是一个变压器,这意味着创建新的列的结果。确保你只选择合并列暂存表。

整个工作图应该类似于下图:

结论

以上部分之后,我们获得了数据存储与独特的价值观和合并复制进去,准备出口到用户的偏好的格式。

同义词查找

同义词查找转换的一个关键部分DataCleaner规范和清理数据的能力。使用这个组件可以在查找值同义词目录,取而代之的是它的主人,如果是同义词。

下面是截图的同义词查找配置面板:

同义词查找的配置很简单:

选择列应用查找函数。
使用“保留原值”选项来确定无与伦比的值(non-synonyms)应该保留或者应该返回null值,如果没有匹配。
选择要使用的同义词目录查找。

如果你的同义词particula列目录包含所有允许的值,它可以是一个好主意取消选中“保留原始值”复选框,然后做一个简单的null-check输出结果列。如果找到null值,这是因为有列中的值的同义词目录无法标准化。

DE行动者和已故的检查

此组件提供地址修正为德国抑制和邮件服务。用它来检查你对人的姓名和地址数据是最新的,正确的。以下邮件抑��检查目前存在:

改变地址(新地址)检查
搬走了(没有新地址)检查
已故的检查

提示

客户需要的凭证访问服务。

地址和邮件抑制数据源

服务结合的几个数据源的数据,包括德国邮政。

输出

这个组件输出的名字和地址字段,除了以下指标:

输出列	描述
地址验证状态	状态码的记录。以下值: 有效的纠正,有效 Ambigiuous 无效的没有加工过的失败未知的
是感动?	一个布尔标志表明如果一个人已经搬到一个新的地址。
是搬到未知的地址吗?	一个布尔标志表明如果一个人已经搬走了(不知道新地址)。
死亡吗?	一个布尔标志指示如果这个人死亡。

链接……

组件产生outputstream可以输入另一个组件。

英国搬家公司、死亡和邮件首选项检查

此组件提供地址修正和邮件为大不列颠联合王国/抑制服务。用它来检查你对人的姓名和地址数据是最新的,正确的。以下邮件抑制检查目前存在:

改变地址(新地址)检查
搬走了(没有新地址)检查
已故的检查
邮寄服务(MPS)检查的偏好

提示

客户需要的凭证访问服务。

地址和邮件抑制数据源

服务结合的几个数据源的数据,包括皇家邮政、议员和丧亲注册中心。

服务允许您获取报价包括汇总统计信息在接受之前预期的结果:

输出

这个组件输出的名字和地址字段,除了以下指标:

输出列	描述
地址验证状态	一个数字记录的状态码。以下值范围: 0 - 10:地址是有效的。 11 - 100:地址是纠正。 101 - 500:地址是无效的。 700年:地址不是加工/跳过。
AddressCorrectionMessage	人类可读的信息地址修正结果。
IsNCOATracked	一个布尔标志表明如果一个人已经搬到一个新的地址。
IsNCOAFlagged	一个布尔标志表明如果一个人已经搬走了(不知道新地址)。
IsDeceased	一个布尔标志指示如果这个人死亡。
IsDoNotMail	一个布尔标志表明如果一个人不希望收到不请自来的邮件。

链接……

组件产生outputstream可以输入另一个组件。

我们搬家公司,死者和do-not-mail检查

此组件提供社科院认证(tm)地址修正和邮件为美利坚合众国抑制服务。用它来检查你对人的姓名和地址数据是最新的,正确的。以下邮件抑制检查目前存在:

改变地址检查
已故的检查
Do-Not-Mail检查

提示

客户需要的凭证访问服务。

地址和邮件抑制数据源

服务结合的几个数据源的数据,包括美国邮政服务。

输出

这个组件输出的名字和地址字段,除了以下指标:

输出列	描述
地址验证状态	一个数字记录的状态码。以下值范围: 0 - 10:地址是有效的。 11 - 100:地址是纠正。 101 - 500:地址是无效的。 700年:地址不是加工/跳过。
AddressCorrectionMessage	人类可读的信息地址修正结果。
EcoaFootnote	指示值告诉什么地址的改变检查的结果。可能发生以下标记: N——没有变化米——党有了一个新的地址 K——党没有新地址已经搬走了此外该领域可能有令牌代表的政党类型被确认: 我——个人 F——家庭 B——业务
IsDeceased	一个布尔标志指示如果这个人死亡。
IsDoNotMail	一个布尔标志表明如果一个人不希望收到不请自来的邮件。

链接……

组件产生outputstream可以输入另一个组件。

查表

表查找变压器允许您查找值在不同的表中。任何数量的列可以用于映射(查询条件)和输出(查找的结果)。

表的配置界面查找变压器是这样的:

让您需要选择的映射目标数据存储,模式和表名。一旦选择你可以选择哪些列用于设置当查找值条件。

查表的语义接近离开的语义连接。如果没有找到查找值,将返回null。然而,如果多个记录发现匹配的条件,只有第一个将被归还。

注意,查表将使用一个��存查找值,以避免为每个传入值查询目标表。

国家标识符

“国家标识符的转换可以验证和提取有用的信息从常见的国家标识符,如社会安全号码、公司注册等。

有组件用于许多国家和领域,看到下面的截图:

每一个转换都将产生一个正确格式化的变体的标识符,和一个布尔值输出列,确定是否一个特定的标识符是有效的。除了转换将生成以下输出字段,所有根据域和公约中的应用:

性别的人
生日
人的性别
公司成立的日期

姓名和地址更正

这些函数是作为客户提供EasyDQ.com。EasyDQ为数据质量是一个随需应变的服务功能。DataCleaner提供这些EasyDQ服务,但需要一个单独的账户,以他们对任何使用。

请参考EasyDQ DataCleaner文档通过EasyDQ对提供的服务的详细信息。

第六章。分析

文摘

本章涉及DataCleaner中最重要的一个概念:数据质量分析。

分析器是一个组件,该组件使用一个(组)列(s)并生成一个分析结果基于消费列中的值。

下面是一个配置面板的例子属于一个分析仪:

在面板中总会有一个或多个选择的列。的配置面板中也可能包含额外的属性配置。

表的内容

逻辑分析仪

逻辑分析仪是一种分析仪针对布尔值。一个布尔列很简单:它将显示真/假的分布在一列(和可选零)值。几列它也将显示值组合的频率组合。结合矩阵使得使用逻辑分析仪一个方便的分析仪的组合匹配变压器和其他变形金刚,布尔值。

逻辑分析仪没有配置参数,除了输入列。

完整性分析仪

完整性分析提供了一个很简单的方法来检查你所有必需的字段记录已满。认为它像一个大“不空”检查多个字段。结合监视应用程序,这个分析仪便于跟踪记录需要额外的信息。

这里是一个截图配置面板的完整性分析仪:

完整性分析仪的配置属性是:

财产	描述
值	选择列你想与你的完整性评估分析仪。每个选择的列你选择分析仪是否应该简单地做一个null-check,或如果它还应该检查空白值。
评价模式	这决定了完整性检查的模式运行。这里您可以配置分析仪是否应该考虑“不完整”如果记录任何所选的值是null /空白,或者所有前的值需要null /空白记录数是不完整的。

字符集分布

字符集分布分析仪检查和地图根据字符集关联文本字符,如拉丁语、希伯来语、斯拉夫字母、中文和更多。

这样的分析是方便获得洞察国际方面的数据。你能阅读和理解��有数据吗?它会在你的工作non-internationalized系统?

日期差距分析仪

日期差距分析仪是用于标识缺失记录时间序列。这个分析器是有用的,例如如果你有员工的时间登记系统记录和日期。它将允许您识别数据中如果有意想不到的空白。

日期/时间分析器

日期/时间分析器提供通用分析指标等时间列类型的日期、时间和时间戳列。

数字分析仪

数量分析仪提供了通用分析指标数值列类型。

模式搜索

模式仪是一种更高级的,也是非常受欢迎的DataCleaner分析仪。

这是一个模式的配置面板仪的截图:

从截图可以看出,模式搜索这些配置属性:

财产	描述
组列	允许您定义一个模式组列。与模式组列可以识别模式分离成独立的桶/组。想象例如您想要检查你的客户的电话号码是否一致。如果你有一个国际客户,然后组通过一个国家列,以确保电话模式识别对手机不匹配模式从不同的国家。
区分文本案例	定义是否歧视(即。认为不同的模式部分)基于文本的情况。如果真的“DataCleaner”和“DataCleaner”将被视为不同的模式的实例,如果错误的他们将在同样的模式匹配。
歧视负数	当解析数字,这个属性定义如果从正数负数应该歧视。
歧视小数	解析数据时,这个属性定义是否应该歧视小数的整数。
使复杂的令牌	定义了是否对令牌进行分类,同时包含字母和数字,“混合”,或者是两个不同的标记。混合使用questionmark令牌代表符号(' ? ')。这是一个比较重要的配置属性。例如,如果混合令牌被启用(默认),所有这些值都将匹配相同的模式:foo123,123 foo,foobar123 foo123bar。如果不启用混合令牌只有foo123和foobar123将匹配(因为123 foo和foo123bar代表不同的字母和数字的组合令牌)。
忽略重复的空间	定义是否歧视基于数量的空白。
大写模式在规模扩张	定义是否大写令牌自动“扩大”的大小。可扩展性是指发现模式是否将包括比赛如果候选人有相同类型的令牌,但是有不同的大小。的默认配置是假的(即大写字符。ABC和ABCD不匹配)。
小写模式在规模扩张	定义是否小写自动标记“扩大”。与大写可扩展性,这个属性是指发现模式是否将包括比赛如果候选人有相同类型的令牌,但是有不同的大小。的默认配置小写字符(即是如此。“abc”不是与“abc”)。默认值在两个配置属性意味着如“可扩展性”。模式识别是有意义的:“詹姆斯”和“约翰”都属于相同的模式(“五星级”),而“麦当劳”属于一个不同的模式(“AaAaaaaa”)。
预定义的标记名	预定义的标记使它可以定义一个令牌来寻找和分类使用只是一个固定的值列表或正则表达式。这通常使用如果值包含一些额外的部分你想要手动定义一个匹配的类别。预定义的标记名的属性定义了这样一个类别的名称。
预定义的令牌regex	定义了大量的字符串值和/或正则表达式用于匹配值对令牌类别定义的(前)。
十进制分隔符	十进制分隔符字符,用于解析数字
千分离器	使用的分隔符,当解析数字
负号	负号字符,用于解析数字

参考数据匹配器

参考数据匹配器的分析仪提供了一种简便的方法匹配多个列对一些字典和/或几个字符串模式。结果是一个矩阵的所有列的匹配信息和所有匹配的资源。

参照完整性

参照完整性的分析器可以检查关键记录完整的之间的关系。分析仪将与关系在一个表,表之间的表之间甚至不同的数据存储。

这是一个截图配置面板的引用完整性分析仪:

应用分析仪在表的外键关系,并配置它来做一个检查表,所有有效的钥匙。

财产	描述
缓存中查找	分析器是否应该加快参照完整性检查之前通过缓存查询结果。是否这将获得性能最终取决于数量的重复检查的关键。如果所有的外键值都或多或少地独特,它应该被关闭。但是如果有大量的重复的外键(例如orderlines指同一产品或客户),然后查找速度。
忽略空值	定义��“零”值是否应该被忽略或者他们应该被视为一个完整性的问题。当忽略,所有记录与零外键值将会被丢弃的分析器。

字符串分析仪

字符串分析仪为字符串列类型提供了通用分析指标。特别关注的字符串分析仪的话说,字符,特殊的迹象,变音符号和其他指标至关重要的理解什么样的字符串值发生在数据。

唯一键检查

唯一键检查的分析提供了一种简便的方法来验证键/ id是独一无二的——通常是预期。

“唯一键检查”的性质是:

财产	描述
列	选择列这个分析器应该执行唯一性检查。
缓冲区大小	缓冲代表了关键的内部资源进行排序和比较。大型缓冲区使分析仪运行得更快,占用更少的资源在磁盘上,但在使用内存为代价的。如果你的工作是没有消耗内存,我们建议增加缓冲区大小1米。

值分布

值分布(通常也称为“频率分析”)允许您识别所有特定列的值。此外你可以调查哪些行属于特定的值。

这是配置属性值分布分析仪:

财产	描述
组列	允许您定义一个列的分组结果。与一组列可以单独标识值分布分成独立的桶/组。想象例如您想要检查如果邮政编码和城市名称对应或者你只是想段值分布。国家或性别或…
记录独特的价值观	默认情况下所有独特的值将被包括在价值分配的结果。这可能会导致内存问题如果你分析列包含一个惟一的值(如。如果它是一个独特的键)。如果实际的独特的价值观是不感兴趣的,然后取消选中此复选框只数(但不是除了检查)的惟一值。
n最频繁的威尔士人	一个可选的数字分析是否应该只显示如使用。“五大最常见的价值观”。分析的结果将只包含顶部/底部n最常见的值,如果这个属性提供。
底n最常见的值	一个可选的数字分析是否应该只显示如使用。“底部5最频繁的价值观”。分析的结果将只包含顶部/底部n最常见的值,如果这个属性提供。

价值匹配器

匹配器非常类似于价值值分布,除了需要预期值的列表和其他一切都放到一群“意想不到的价值”。这种价值观划分意味着几件事情:

你得到一个内置的验证机制。你期望也许只有“M”和“F”值“性别”列,和其他的都是在某种意义上是无效的,因为这是意想不到的。
该部门更容易监控特定的值在数据质量监控web应用程序。
这对大型数据集分析仪尺度更好,因为分组是决定性的,因此可以在批处理运行做好准备。

工作日的分布

工作日的分布提供了频率分析日期列,你可以很容易地识别哪些工作日日期字段表示。

第七章。写

文摘

虽然DataCleaner是分析的重点,往往在这样的分析你就会发现自己实际上改善数据。在这种情况下,显然你要导出改进/清洗数据,这样你就可以利用它在其他情况下比分析。在这一章里,我们将着眼于DataCleaner提供各种写作选项。

在接下来的部分将描述每个输出格式选项:

表的内容

创建CSV文件创建Excel电子表格创建临时表插入表更新表

创建CSV文件

写一个数据集,一个逗号分隔值文件。CSV文件是一个受欢迎的选择与其他系统的互操作性和加载数据到数据库。

创建Excel电子表格

写一个数据集,一个Excel电子表格。这种方法的一个优势是,单个文件可以包含多个表,而且它很容易通航在Microsoft Excel。一个缺点是,对于非常大的数据集是更少的性能。

创建临时表

写一个数据集嵌入式关系数据库,DataCleaner管理。这个选项主要用于暂存数据进行进一步分析。使用该特性的优势在于它保留了列类型信息,它可以处理大量的数据和多个数据集可以被写入相同的数据存储。缺点是数据不是由第三方应用程序简单易读的(除非再出口)。

插入表

使用这个作者可以将数据插入表中现有的数据存储。如果你已经有一个表布局或如果你想添加到如做好了准备。一个数据库表,然后撰写本文时为你的选择是正确的。

可选地,您可以插入表的组件插入之前截断你的表。这将删除表中的所有现有记录,有用初始加载的情况。

目前目标表可以从下列数据存储类型:

CSV文件。在这种情况下,数据将被附加到文件。
Excel电子表格。在这种情况下,数据将被附加到文件。
关系数据库。在这种情况下,数据将使用INSERT语句插入到表中。
MongoDB数据库。在这种情况下,数据将被插入到MongoDB。
CouchDB数据库。在这种情况下,数据将被插入到CouchDB数据库。
Salesforce.com。在这种情况下,数据将上传/使用SOQL插入Salesforce.com web服务。
ElasticSearch指数。在这种情况下,数据将被索引到ElasticSearch。

更新表

更新表的作家就像“插入表作家除了它问题UPDATE语句而不是插入语句。这显然意味着它有一个额外的属性,用于指定条件(部分)的更新。

SunWuKong_Hadoop

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
datacleaner第二部分，四、五、六、七章

第二部分。分析组件引用表的内容4所示。变换JavaScript变压器调用子分析工作=马克斯行非空联盟5。改��重复检测“模型训练”模式“检测”模式未经训练的检测模式合并复制合并复制结论同义词查找DE行动者和已故的检查地址和邮件抑制数据源输
复制链接

扫一扫

专栏目录