PySpark学习笔记(7)——数据清洗

在正式建模之前,数据清洗和特征工程是必不可少的准备工作。其中,数据清洗是将杂乱的原始数据规整化的过程,本文主要介绍数据清洗中的一些小技巧:

1.正则表达式概述

正则表达式是对字符串操作的一种逻辑公式,是事先定义好的一些特定字符及这些特定字符的组合,这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中,如果遇到特别杂乱的脏数据,可以通过多次使用正则表达式来实现无关信息的过滤和有用信息的规整化操作。

2.常见的数据清洗技巧

2.1 正则表达式提取特定信息

(1)只提取字符串中花括号内的数据:

import re

#只提取花括号内的数据
_str = "test{key1:value1,key2:value2}result"
result = re.findall('\{(.*?)\}',_str)
print(result)

输出结果如下所示:

(2)提取字符串中的年份和数字

import re

#提取字符串中的年份
strings = "2017 was a good year but 2018 will be better! There are 528 feet to a mile."
years = re.findall('[2][0-9]{3}',strings)
print(years)

#提取字符串中的数字
result = re.findall("\d+",strings)
print(result)

输出结果如下所示:

 

 

 

 

 

 

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值