PySpark学习笔记（7）——数据清洗

最新推荐文章于 2024-06-04 20:51:16 发布

飞鸟2010

最新推荐文章于 2024-06-04 20:51:16 发布

阅读量3.3k

点赞数

分类专栏： PySpark学习笔记数据清洗正则表达式

本文链接：https://blog.csdn.net/FlySky1991/article/details/81239851

版权

PySpark学习笔记同时被 3 个专栏收录

6 篇文章 4 订阅

订阅专栏

正则表达式

2 篇文章 0 订阅

订阅专栏

数据清洗

1 篇文章 0 订阅

订阅专栏

在正式建模之前，数据清洗和特征工程是必不可少的准备工作。其中，数据清洗是将杂乱的原始数据规整化的过程，本文主要介绍数据清洗中的一些小技巧：

1.正则表达式概述

正则表达式是对字符串操作的一种逻辑公式，是事先定义好的一些特定字符及这些特定字符的组合，这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中，如果遇到特别杂乱的脏数据，可以通过多次使用正则表达式来实现无关信息的过滤和有用信息的规整化操作。

2.常见的数据清洗技巧

2.1 正则表达式提取特定信息

（1）只提取字符串中花括号内的数据:

import re

#只提取花括号内的数据
_str = "test{key1:value1,key2:value2}result"
result = re.findall('\{(.*?)\}',_str)
print(result)

输出结果如下所示：

（2）提取字符串中的年份和数字

import re

#提取字符串中的年份
strings = "2017 was a good year but 2018 will be better! There are 528 feet to a mile."
years = re.findall('[2][0-9]{3}',strings)
print(years)

#提取字符串中的数字
result = re.findall("\d+",strings)
print(result)

输出结果如下所示：

飞鸟2010

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
PySpark学习笔记（7）——数据清洗

在正式建模之前，数据清洗和特征工程是必不可少的准备工作。其中，数据清洗是将杂乱的原始数据规整化的过程，本文主要介绍数据清洗中的一些小技巧：1.正则表达式概述正则表达式是对字符串操作的一种逻辑公式，是事先定义好的一些特定字符及这些特定字符的组合，这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中，如果遇到特别杂乱的脏数据，可以通过多次使用正则表达式来实现无关信息的过滤和有用信息...
复制链接

扫一扫

专栏目录