python之数据清洗

最新推荐文章于 2024-06-09 20:59:55 发布

抓起的第一个娃娃

最新推荐文章于 2024-06-09 20:59:55 发布

阅读量2.3k

点赞数 1

分类专栏： python学习笔记文章标签： python

本文链接：https://blog.csdn.net/m0_49549614/article/details/119454394

版权

python学习笔记专栏收录该内容

12 篇文章 1 订阅

订阅专栏

python之数据清洗

定义
内容
步骤
实例

定义

对原始数据进行整理、标注，形成一份“干净”的数据，使其适合特定场景，这个过程就是数据清洗。这是一个反复的过程，在发现噪声数据后，还需要筛选出这些数据，然后根据任务需求再确定如何处理这些数据。

内容

数据清洗就是要去掉噪声数据，修正错误，具体包括如下几个方面：

重复数据：在数据集种具有相同信息的数据。
错误数据：主要是指数据集种格式错误、范围错误、包含特殊字符、包含ASCII码的数据，以及二进制、表情符号、全角、半角或其他不可识别的数据。
矛盾数据：是指在数据集种对客观事实的不同维度的描述存在差异，导致数据相互矛盾，eg:物品的销量大于产量等。
缺失数据：主要是指数据集中有一部分信息缺失。

步骤

找出噪声数据
清洗数据：根据具体任务指定不同的清洗方法。
保存数据，可以根据需要将清洗好的数据存储为excel、csv、json、xml等数据格式。这里主要记录下XML数据。

XML的全称是eXtensible Markup Language,是对HTML语言的扩展。XML是完全面向数据本身的，可以表述树结构、图结构等，由于其高度的通用性，因此广泛应用于不同系统间的信息传输。在存储方面，XML使用的是纯文本文档形式。
如下所示：
在这里插入图片描述
读取上述XML文件的代码为：

# coding=utf-8

import xml.etree.ElementTree as Et

def get_nodes(element):
    if len(element) > 0:
        for child in element:
            print(child.tag, "：", child.text)
            get_nodes(child)


if __name__ == "__main__":
    tree = Et.parse("商品销量.xml")
    root = tree.getroot()
    get_nodes(root)

实例

平时，处理数据时，数据量比较大，手动处理比较耗时耗力且容易出错，可以使用python编写自动化数据清洗脚本，以尽快的找到错误的数据行并进错误类别统计。如下所示，时部分歌单信息，包括了歌曲ID、歌曲名称、歌手、发行日期、发行公司，

在这里插入图片描述

但有的数据信息是缺失的，我们分别统计，代码如下：

path = r"music_list.txt"
file = open(file=path)
miss_id_list = []
miss_name_list = []
miss_artist_list = []
miss_publish_date_list = []
miss_company_list = []

# 处理发行公司，若是没有分割后没有长度不为2则是数据缺失
def hadndle_split(tmp_data):
    tmp_list = tmp_data.strip().split("：")
    if len([i for i in tmp_list if len(i.strip()) > 0]) == 2:
        return False
    else:
        return True


for line in file:
    datas = line.split(",")
    if len(datas[0].strip()) == 0:  # 将缺失id的数据存入列表
        miss_id_list.append(line)

    if len(datas[1].strip()) == 0:  # 将缺失名称的数据存入列表
        miss_name_list.append(line)

    if len(datas[2].strip()) == 0:  # 将缺失歌手的数据存入列表
        miss_artist_list.append(line)

    # 将缺失发行时间的数据存入列表
    if len(datas[3].strip()) == 0 or hadndle_split(datas[3].strip()):
        miss_publish_date_list.append(line)

    # 将缺失发行公司的数据存入列表
    if len(datas[4].strip()) == 0 or hadndle_split(datas[4].strip()):
        miss_company_list.append(line)

print("缺失歌曲ID的数据有 {0} 行，分别是：{1}".format(len(miss_id_list), miss_id_list))
print("缺失歌曲名称的数据有 {0} 行，分别是：{1}".format(len(miss_name_list), miss_name_list))
print("缺失歌手姓名的数据有 {0} 行，分别是：{1}".format(len(miss_artist_list), miss_artist_list))
print("缺失发行时间的数据有 {0} 行，分别是：{1}".format(len(miss_publish_date_list), miss_publish_date_list))
print("缺失发行公司名称的数据有 {0} 行，分别是：{1}".format(len(miss_company_list), miss_company_list))

抓起的第一个娃娃

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
python之数据清洗

python之数据清洗定义内容步骤实例定义对原始数据进行整理、标注，形成一份“干净”的数据，使其适合特定场景，这个过程就是数据清洗。这是一个反复的过程，在发现噪声数据后，还需要筛选出这些数据，然后根据任务需求再确定如何处理这些数据。内容数据清洗就是要去掉噪声数据，修正错误，具体包括如下几个方面：重复数据：在数据集种具有相同信息的数据。错误数据：主要是指数据集种格式错误、范围错误、包含特殊字符、包含ASCII码的数据，以及二进制、表情符号、全角、半角或其他不可识别的数据。矛盾数据：是指在数据集
复制链接

扫一扫

专栏目录