Datacleaner

Datacleaner的使用过程:

1选定一个数据库,

1建立分析流程:必须含有分析环节;

1分析结果展示

1分析过程存储

 

建立分析流程:

分析过程包括:过滤转换分析

过滤类型;Dictionarylookup,equals,javaScript,Max record,not null,number range,single word,stringlength range ,string pattern match,string value range

翻译:字典查找,等值,js,最大记录行数,非空,数字范围,单词,字符串长度范围,字符串匹配,字符串值范围

各种过滤单独生成一个文件,互相不影响。

转换的效果是增加一列,即增加了转换后的列。转换前的列保留。

分析,可以保留分析流程,但分析结果无法保留,可通过再次打开分析流程来看结果。

过滤,转换,分析都可以添加多个,按照其添加顺序执行。

例如:增加一个转换后,会增加一列,再次增加一个转换/过滤/分析时会看到增加的一列。

过滤就是按照过滤的要求生成文件。

分析:分析有布尔分析,日期范围分析,日期时间分析,匹配分析,数字分析,匹配查找,字符串分析,数值分布,工作日分配。

过滤和分析无关:不是仅过滤的内容才进行分析。所有数据均进行分析。

分析包括:

boolean analyzer 可以通过转换为布尔值,再进行分析

data gap analyzer  日期范围分析,只选择列,自动进行

date/time analyzer 日期分析,最大,最小日期,

matching analyzer 提供字典匹配,字符串匹配

number analyzer  数学分析

pattern finder    模式查找,统计符合各种模板的个数

string analyzer    字符串的分布

value distribution 值的分布,即相同数据的概率

weekday distribution 查找时间的分布

 

该软件主要是数值/字符串/日期的分布概率的。

对数值分析来说:

通过统计总数和重复的个数可以判断数据的全面性和唯一性;通过过滤可以得出数据的格式正确性;但无法通过逻辑运算得出数据的准确性;例如无法计算环比值,从而无法判断数据的合理性,即准确度。

 

 

 


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值