数据预处理一般操作

最新推荐文章于 2023-03-25 09:47:19 发布

Dragon Wu

最新推荐文章于 2023-03-25 09:47:19 发布

阅读量529

点赞数

分类专栏：数据挖掘 python 文章标签： python 开发语言数据挖掘数据分析

本文链接：https://blog.csdn.net/qq_50909707/article/details/122461050

版权

python 同时被 2 个专栏收录

35 篇文章 6 订阅

订阅专栏

数据挖掘

22 篇文章 4 订阅

订阅专栏

1、首先查看数据字段情况

data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
print(data.info())

查看前几行数据

data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
print(data.head())

2、查看字符串类型数字的具体数据类别

    # 查看字符串类型数字的具体数据类别
    data_types = data.dtypes
    for col in data.dtypes.index:
        if data_types[col] == object:
            print('*' * 50)
            print(col + ":")
            print(len(np.unique(data[col].astype(str))))
            # print(np.unique(data[col].astype(str)))

将字符串型的数字转为数字类型：

查看转换后空值的情况：

再次查看信息：

data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
print(data.describe().T)

3、异常值处理

    data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
    for col in data.columns.values:
        if data[col].dtypes != object:  # 排除字符串类型
            bottom_quantile = data[col].quantile(q=0.75)
            top_quantile = data[col].quantile(q=0.25)
            # 分为数间距
            distance = bottom_quantile - top_quantile
            # 求数据上界和数据下界
            # 这里假设为正态分布
            k = 1.5
            data_top = top_quantile + k * distance
            data_bottom = bottom_quantile - k * distance
            print('*' * 50)
            print(data_top)
            print(data_bottom)
            # 异常值数量
            print('异常值数量：', len(data[(data[col] < data_bottom) | (data[col] >    
            data_top)]))

方法一：

方法二：

方法三：

方法四：

4、空值处理

5、数据的标准化和归一化

Dragon Wu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据预处理一般操作

1、首先查看数据字段情况data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")print(data.info())查看前几行数据data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")print(data.head())2、查看字符串类型数字的具体数据类别 # 查看字符串类型数字的具体数据类别 data_types = data..
复制链接

扫一扫