- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 PySpark学习笔记(7)——数据清洗
在正式建模之前,数据清洗和特征工程是必不可少的准备工作。其中,数据清洗是将杂乱的原始数据规整化的过程,本文主要介绍数据清洗中的一些小技巧:1.正则表达式概述正则表达式是对字符串操作的一种逻辑公式,是事先定义好的一些特定字符及这些特定字符的组合,这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中,如果遇到特别杂乱的脏数据,可以通过多次使用正则表达式来实现无关信息的过滤和有用信息...
2018-07-27 16:29:46 3340
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人