Datacleaner的使用过程:
1选定一个数据库,
1建立分析流程:必须含有分析环节;
1分析结果展示
1分析过程存储
建立分析流程:
分析过程包括:过滤转换分析
过滤类型;Dictionarylookup,equals,javaScript,Max record,not null,number range,single word,stringlength range ,string pattern match,string value range
翻译:字典查找,等值,js,最大记录行数,非空,数字范围,单词,字符串长度范围,字符串匹配,字符串值范围
各种过滤单独生成一个文件,互相不影响。
转换的效果是增加一列,即增加了转换后的列。转换前的列保留。
分析,可以保留分析流程,但分析结果无法保留,可通过再次打开分析流程来看结果。
过滤,转换,分析都可以添加多个,按照其添加顺序执行。
例如:增加一个转换后,会增加一列,再次增加一个转换/过滤/分析时会看到增加的一列。
过滤就是按照过滤的要求生成文件。
分析:分析有布尔分析,日期范围分析,日期时间分析,匹配分析,数字分析,匹配查找,字符串分析,数值分布,工作日分配。
过滤和分析无关:不是仅过滤的内容才进行分析。所有数据均进行分析。
分析包括:
boolean analyzer 可以通过转换为布尔值,再进行分析
data gap analyzer 日期范围分析,只选择列,自动进行
date/time analyzer 日期分析,最大,最小日期,
matching analyzer 提供字典匹配,字符串匹配
number analyzer 数学分析
pattern finder 模式查找,统计符合各种模板的个数
string analyzer 字符串的分布
value distribution 值的分布,即相同数据的概率
weekday distribution 查找时间的分布
该软件主要是数值/字符串/日期的分布概率的。
对数值分析来说:
通过统计总数和重复的个数可以判断数据的全面性和唯一性;通过过滤可以得出数据的格式正确性;但无法通过逻辑运算得出数据的准确性;例如无法计算环比值,从而无法判断数据的合理性,即准确度。