PySpark学习笔记(7)——数据清洗

在正式建模之前,数据清洗和特征工程是必不可少的准备工作。其中,数据清洗是将杂乱的原始数据规整化的过程,本文主要介绍数据清洗中的一些小技巧: 1.正则表达式概述 正则表达式是对字符串操作的一种逻辑公式,是事先定义好的一些特定字符及这些特定字符的组合,这个组合可以用来表达对字符串的一种过滤逻辑。在...

2018-07-27 16:29:46

阅读数 858

评论数 0

Python正则表达式

1.简介:正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。 正则表达式匹配流程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。如下图所示: Python支持的正...

2016-11-04 21:50:17

阅读数 268

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭