首先贴上两个介绍python中pandas库的链接pandas简单数据处理、十分钟搞定pandas(英文版)以及网友的简单翻译十分钟搞定pandas(中)
这些内容在初学python处理大数据十分有效。
这次的内容是在给定的数据集对数据作一个简单的z-score的标准化处理,数据集可以自行弄一个怎么样的数据集都行。
我的数据集存放在./bug/下名称分别为1..34.txt。
以下是处理代码
import pandas as pd
def main():
for k in range(1,35):
filename = "bug/"+str(k)+".csv"
csvfile = file(filename,'rb')
data = pd.read_csv(csvfile)
cols = list(data.iloc[:,1:21].columns)
for col in cols:
col_zscore = col + "_zscore"
data[col_zscore] = (data[col]-data[col].mean())/data[col].std(ddof=0)
print data
if __name__ == "__main__":
main()