find函数常见错误_常见的文本清洗类函数

本文介绍了Excel中常见的文本清洗函数,包括Find、Left、Right、Mid、Substitute、Concatenate、Trim和Len。数据清洗是解决数据质量问题的重要步骤,涉及残缺、错误和重复数据的处理。文章详细讲解了各个函数的用法和注意事项,如Find的区分大小写,Left和Right的字符提取,Mid的指定位置提取,Trim的空格清除,以及Replace和Substitute的字符串替换功能。
摘要由CSDN通过智能技术生成
543b10c136ffe2c1cb0b570843b1e99c.gif 点击上方“蓝字”陪你一起学习

常见的文本清洗函数有:Find、Left、Right、Mid、Substitute、Concatenate、Trim、Len

数据清洗是为了解决数据质量问题,“脏数据”一般有以下三种类型:

1、残缺数据

这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。

2、错误数据

这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

3、重复数据

对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。

248a1ec1cf8c92c325b923d9ef7ab0a7.png bbe20c81308fe2417d57c6f4f959f4ea.png 248a1ec1cf8c92c325b923d9ef7ab0a7.png

文本定位

1

find函数

功能:对要查找的文本进行定位,以确定其位置。 语法: =find(find_text,within_text,start_num)解释:Find(要查找的文本,文本所在的单元格,从第几个字符开始查找 [可选,省略默认为1,从第一个开始查找]) 示例:

99aa2b287291ef8ebb4c5b70f98ee510.png

注意,i要用双引号,且在英文状态下输入。如果数值型数据则不需要。Find函数进行定位时,总是从指定位置开始,返回找到的第一个匹配字符串的位置,而不管其后是否还有相匹配的字符串,所以没有返回第二个i的位置,即7。
如果start_num大于1,不是从第一个数字开始查找,但还是会计算跳过的字符,从文本开头计算。所以返回的是7。

99403b7780fb767c7deaad0c89ac3f7a.png

注意:Find函数是区分大小写的

40360f027ebebc8f0eb297a7bc15a4e0.png

如图,baIdujingyan中返回的值是7。

248a1ec1cf8c92c325b923d9ef7ab0a7.png bbe20c81308fe2417d57c6f4f959f4ea.png 248a1ec1cf8c92c325b923d9ef7ab0a7.png

数据截取类

数据截取类函数主要功能为从文本中提取需要的字符串,主要包括left、right、mid函数。

1

left函数

功能:从一个文本字符串的第一个字符开始,返回指定个数的字符

语法:left(要提取字符的字符串,提取长度)

示例:

5f5017799998153bd84752aa80dee4b4.png

2

right函数

功能:从一个文本字符串的最后一个字符开始返回指定个数的字符

语法:right(要提取的字符串,提取长度)

可以发现left与right函数不同之处在于,left函数是从前往后提取字符,right函数是从后往前提取字符。示例参考left函数,这里就不在展示。

3

mid函数

功能:从文本字符串中指定的起始位置起,返回指定长度的字符

语法:mid(要提取字符串的文本,第一个字符的位置,提取长度)

示例:

9ed20663797daf88b9462a5f62a43282.png

248a1ec1cf8c92c325b923d9ef7ab0a7.png bbe20c81308fe2417d57c6f4f959f4ea.png 248a1ec1cf8c92c325b923d9ef7ab0a7.png

数据清除类

1

trim函数

功能:删除字符串中多余的空格

语法:trim(字符串)

Excel函数功能介绍中,功能最后还有一句【会在英文字符串中保留一个作为词与词之间分隔的空格】;

其实不仅仅会在英文字符串中保留一个空格,在汉字中也是一样的,下面用个示例演示函数的具体意义。

示例:

0dc43bf74630d4756d05fe6621ac40be.png

注:

1、trim函数会清除字符串首尾的空格;

2、trim函数会清除字符串中间的空格,但是会保留一个,作为词与词之间的分隔。

248a1ec1cf8c92c325b923d9ef7ab0a7.png bbe20c81308fe2417d57c6f4f959f4ea.png 248a1ec1cf8c92c325b923d9ef7ab0a7.png

数据替换类

数据替换类函数主要包括两个:Replace与Substitute函数。

1

Replace函数

功能:将一个字符串中的部分字符用另一个字符串替换

语法:replace(要替换的字符串,开始的位置,替换长度,用来替换内容)

示例:

3a6186dfa9fae772d191a4fbf852b364.png

注:replace要替换的部分字符串在函数中无法直接输入,必须得用起始位置和长度表示。

2

Substitute函数

功能:将字符串中的部分字符串以新字符串替换

语法:substitute(要替换的字符串,要被替换的字符串,用来替换内容,替换第几个)

示例:

c385e2041f838ecb80414e72ae668ae5.png

注:第四个参数instance_num表示:若指定的字符串在父字符串中出现多次,则用本参数指定要替换第几个,如果省略,则全部替换。

248a1ec1cf8c92c325b923d9ef7ab0a7.png bbe20c81308fe2417d57c6f4f959f4ea.png 248a1ec1cf8c92c325b923d9ef7ab0a7.png

数据合并类

1

concatenate函数

功能:将多个文本字符串合并成一个

语法:concatenate(文本1,文本2,.....)

示例:

f71cc2d4ad6e2333c829e6036fdc48b6.png

248a1ec1cf8c92c325b923d9ef7ab0a7.png bbe20c81308fe2417d57c6f4f959f4ea.png 248a1ec1cf8c92c325b923d9ef7ab0a7.png

Len函数

功能:返回文本串的字符数。语法:=len(text)示例:

9e310ba5ccc11178b7d6c53ad369b345.png

注意,空格也计算在文本长度之内:

ee27c39c7d65aae8db3bdcfbb0c09b59.png

END

c42833f5c6195526ea7eb9abcec19e19.png

关注我们

50cd952fb92c88be0d43a90e00cd2628.png

每天成长

关注学姐团,每天Get一个小技巧,不荒废四年青春年华。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值