数据清洗技巧:如何保留字段中自己希望留下的部分?

数据清洗是整个数据分析流程中的基石,其核心目标在于提升数据的可靠性和精确性,以便后续的数据分析和挖掘工作更加准确、有效。在这个环节中,针对字段内容进行精细化处理以保留所需部分,是清洗的一项关键任务。

我们在进行数据清洗的时候,经常会遇见遇见这样的情况:

字段中存在一些不需要的内容或不需要的字符

金额字段前有¥符号,但是我们只需要纯数字的数据

本文将为您介绍7个数据清洗公式,干货满满,速速码住!

一、数据清洗-去除字段前后字符

一些订单信息表中,对于销售额、利润等字段会包含货币符号「¥」,想要将字符清除掉进行一些其他的运算。

数据清洗技巧

Excel首尾字符智能清理

用户在使用、更新Excel或是本地数据源的过程中,经常会遇到Excel「文本」的头尾包含「空格或换行符号」等,系统会自动清理单元格字符前后的空格等符号,更加高效便捷。

excel字符智能清理

除了自动清理的字符外,还有一些其他特殊的字符,我们可以结合使用函数来清理:

  • 先用 LEFT 函数截取第一位返回值,与( 符号进行比较。
  • 如果字符中的第一个字符为(,那么就需要使用 SUBSTITUTE 函数替换字段中的 (、)、¥内容,并使用 CONCATENATE函数拼接「-」负号字符;
  • 如果字符中的第一个字符不是(,那么就使用 SUBSTITUTE 函数替换字段中的 ¥内容;
  • 最后使用 TONUMBER 函数将结果转换成数值类型。

二、7个数据清洗公式

1. LEFT()

目的:截取前几个字符串

示例:LEFT("Fine software",8)=Fine sof

2. RIGHT()

目的: 截取后几个字符串

示例:RIGHT("Itisinteresting",6)=esting

3. MID()

目的:返回指定位置字符串

示例:MID("Finemoresoftware",9,8)=software

参数说明:MID(text,start_num,num_chars)

  • text:包含要提取字符的文本串
  • start_num:文本中需要提取字符的起始位置,文本中第一个字符的start_num为1,以此类推
  • num_chars:返回字符的长度

4. SUBSTITUTE()

目的:替换指定字符

示例:SUBSTITUTE("database","base","model")=datamodel

将“database”中的“base”替换成“model”

参数说明:SUBSTITUTE(text,old_text,new_text,instance_num)

  • text:原始字符串。
  • old_text:需要被替换的部分字符。
  • new_text:用于替换old_text的字符。
  • instance_num:指定用new_text替换第几次出现的old_text。可以不指定,若未指定,则替换所有出现的old_text。

5. CONCATENATE()

目的: 将多个字符串合并成一个字符串

示例:CONCATENATE("Average","Price")=AveragePrice

6. TONUMBER()

目的:文本转为数字

示例:TONUMBER("123")=123

7. TOINTEGER()

目的:文本转为整数

示例:TOINTEGER("123.56")=123

三、总结

在本文为您带来了7个数据清洗公式,除此之外,还支持Excel首尾字符智能清理,快来使用开始您的数据清洗之旅吧~

  • 22
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值