常见的文本清洗函数有:Find、Left、Right、Mid、Substitute、Concatenate、Trim、Len
数据清洗是为了解决数据质量问题,“脏数据”一般有以下三种类型:
1、残缺数据
这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。
2、错误数据
这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。
3、重复数据
对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。
数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。
文本定位
1find函数
功能:对要查找的文本进行定位,以确定其位置。 语法: =find(find_text,within_text,start_num)解释:Find(要查找的文本,文本所在的单元格,从第几个字符开始查找 [可选,省略默认为1,从第一个开始查找]) 。 示例:注意,i要用双引号,且在英文状态下输入。如果数值型数据则不需要。Find函数进行定位时,总是从指定位置开始,返回找到的第一个匹配字符串的位置,而不管其后是否还有相匹配的字符串,所以没有返回第二个i的位置,即7。
如果start_num大于1,不是从第一个数字开始查找,但还是会计算跳过的字符,从文本开头计算。所以返回的是7。
注意:Find函数是区分大小写的
如图,baIdujingyan中返回的值是7。
数据截取类
数据截取类函数主要功能为从文本中提取需要的字符串,主要包括left、right、mid函数。
1left函数
功能:从一个文本字符串的第一个字符开始,返回指定个数的字符
语法:left(要提取字符的字符串,提取长度)
示例:
2right函数
功能:从一个文本字符串的最后一个字符开始返回指定个数的字符
语法:right(要提取的字符串,提取长度)
可以发现left与right函数不同之处在于,left函数是从前往后提取字符,right函数是从后往前提取字符。示例参考left函数,这里就不在展示。
3mid函数
功能:从文本字符串中指定的起始位置起,返回指定长度的字符
语法:mid(要提取字符串的文本,第一个字符的位置,提取长度)
示例:
数据清除类
1trim函数
功能:删除字符串中多余的空格
语法:trim(字符串)
Excel函数功能介绍中,功能最后还有一句【会在英文字符串中保留一个作为词与词之间分隔的空格】;
其实不仅仅会在英文字符串中保留一个空格,在汉字中也是一样的,下面用个示例演示函数的具体意义。
示例:
注:
1、trim函数会清除字符串首尾的空格;
2、trim函数会清除字符串中间的空格,但是会保留一个,作为词与词之间的分隔。
数据替换类
数据替换类函数主要包括两个:Replace与Substitute函数。
1Replace函数
功能:将一个字符串中的部分字符用另一个字符串替换
语法:replace(要替换的字符串,开始的位置,替换长度,用来替换内容)
示例:
注:replace要替换的部分字符串在函数中无法直接输入,必须得用起始位置和长度表示。
2Substitute函数
功能:将字符串中的部分字符串以新字符串替换
语法:substitute(要替换的字符串,要被替换的字符串,用来替换内容,替换第几个)
示例:
注:第四个参数instance_num表示:若指定的字符串在父字符串中出现多次,则用本参数指定要替换第几个,如果省略,则全部替换。
数据合并类
1concatenate函数
功能:将多个文本字符串合并成一个
语法:concatenate(文本1,文本2,.....)
示例:
Len函数
功能:返回文本串的字符数。语法:=len(text)示例:
注意,空格也计算在文本长度之内:
END
关注我们
每天成长
关注学姐团,每天Get一个小技巧,不荒废四年青春年华。