使用numpy pandas 读取csv文件及遍历 && 二者处理数据时间对比

最新推荐文章于 2024-08-10 12:39:27 发布

chvalrous

最新推荐文章于 2024-08-10 12:39:27 发布

阅读量1.7w

点赞数 3

分类专栏： Python 文章标签： numpy pandas csv

本文链接：https://blog.csdn.net/chivalrousli/article/details/90673230

版权

Python 专栏收录该内容

63 篇文章 5 订阅

订阅专栏

1 使用numpy 及 pandas 读取csv文件及遍历

1.1 numpy

    fin = np.loadtxt(self.path,dtype=np.str,delimiter=',')
    test_dict = {}
    data = fin[1:].tolist()
    for list1 in data:
        name,cid = list1
        test_dict[cid] = name
    print(json.dumps(test_dict,ensure_ascii=False,indent=4))

1.2 pandas

    data = pd.read_csv(self.path)
    print(data)
    print(data.describe())
    print(data.head(5))   #前5行
    print(data.iloc[0,:])  #第一行所有数据
    print(data.iloc[[1,3,4],:])  #第2 4 6行
    print(data.iloc[:,:]) #所有航所有列
    print(data.loc[:,'cid'])

    for index,row in data.iterrows():
        print(row['cid'],row['name'],type(row['cid']),type(row['name']))

2 使用numpy pandas python原生方法处理较大数据时的耗时对比

这部分先简单写下，后续补全。

制造一份5.5w条的假数据，统计部分列数值的 sum，mean

numpy cost time: 2.8s

pandas cost time: 10.2s

python 原生方法 cost time: 37.6s

可见numpy 是最快的。

我也觉得numpy api用着更顺手，以后常用numpy 算了。。。