python数据集处理

最新推荐文章于 2024-08-10 18:11:37 发布

Gnit66

最新推荐文章于 2024-08-10 18:11:37 发布

阅读量1.8k

点赞数

文章标签：数据

本文链接：https://blog.csdn.net/Gnit66/article/details/78478659

版权

第一篇CSDN博客（第一篇存成草稿的，只是没有发……）
决定每天都写自己的学习博客决定了好久，今天终于开干啦（苦笑）。为了记录学习轨迹看到每天的收获和进步，并防止以前做过的东西都忘光光，忘光光，光光，光……
早上浪费光阴，下午绝对不能！于是开始干起来。先看了一下《利用python进行数据分析》里的实例，发现了好东西。果然实战中学理论才记得牢。于是结合书里处理数据集的实例，姐把自己手边的数据集搞成了这样：

    import pandas as pd
    RFItoSupp1=pd.read_csv('C:/Users/user/Desktop/Verified Buyer RFIs to P1-6 Suppliers1023.csv')
    RFItoSupp2=pd.read_csv('C:/Users/user/Desktop/Verified Buyer RFIs to P1-6 Suppliers1030.csv')
    RFItoSupp3=pd.read_csv('C:/Users/user/Desktop/Verified Buyer RFIs to P1-6 Suppliers1106.csv')
    RFItoSupp=pd.concat([RFItoSupp1,RFItoSupp2,RFItoSupp3],axis=0)  #axis=0是横向连接，axis=1是纵向连接
    RFItoSupp=RFItoSupp.reset_index(range(25062))  #重设行索引，避免出现重复
    RFItoSupp.iloc[3]  #查看索引为3的那行，记得用iloc而不用ix
    RFItoSupp.columns[1] #查看dataframe第二列
    p1=RFItoSupp.iloc[:,[0,1,7,9,13,22,23,24,25]]  #选取指定列
    p1=p1.drop(['Supplier ID'],axis=1) #删除SupplierID列
    p1['GSOL Showroom Type'].unique()  #查看该列所有值
    p1['GSOL Showroom Type'].value_counts()  #查看各个值分别出现多少次

未完待续……