原标题:Python数据清洗实践
DATA CLEANING WITH PYTHON
作者 | Balogun Omobolaji
翻译 | 酱番梨、祝弟弟基督教
校对 | Pita 审核 | 约翰逊·李加薪 整理 | 立鱼王
https://medium.com/machine-intelligence-team/data-cleaning-with-python-d0ca811d6cdf
注:本文的相关链接请访问文末二维码
引言
“数据科学家们80%的精力消耗在查找、数据清理、数据组织上,只剩于20%时间用于数据分析等。”——IBM数据分析
数据清洗是处理任何数据前的必备环节。在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。
数据清洗
数据清洗名如其意,其过程为标识并修正数据集中不准确的记录,识别数据中不可靠或干扰部分,然后重建或移除这些数据。
数据清洗是数据科学中很少提及的一点,因为它没有训练神经网络或图像识别那么重要,但是数据清洗却扮演着非常重要的角色。没有它,机器学习预测模型将不及我们预期那样有效和精准。
下面我将讨论这些不一致的数据:
数据缺失
列值统一处理
删除数据中不需要的字符串
数据缺失
数据缺失原因?
在填写问卷时,人们往往未填全所有必填信息,或用错数据类型。问卷