利用pandas对数据进行基本清洗

最新推荐文章于 2024-06-17 00:00:01 发布

waple_0820

最新推荐文章于 2024-06-17 00:00:01 发布

阅读量685

点赞数

分类专栏： python机器学习

本文链接：https://blog.csdn.net/waple_0820/article/details/52036617

版权

python机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

首先贴上两个介绍python中pandas库的链接pandas简单数据处理、十分钟搞定pandas（英文版）以及网友的简单翻译十分钟搞定pandas（中）

这些内容在初学python处理大数据十分有效。

这次的内容是在给定的数据集对数据作一个简单的z-score的标准化处理，数据集可以自行弄一个怎么样的数据集都行。
我的数据集存放在./bug/下名称分别为1..34.txt。

以下是处理代码

import pandas as pd

def main():
    for k in range(1,35):
        filename = "bug/"+str(k)+".csv"
        csvfile = file(filename,'rb')
        data = pd.read_csv(csvfile)

        cols = list(data.iloc[:,1:21].columns)
        for col in cols:
            col_zscore = col + "_zscore"
            data[col_zscore] = (data[col]-data[col].mean())/data[col].std(ddof=0)

        print data       

if __name__ == "__main__":
    main()