python数据集处理

第一篇CSDN博客(第一篇存成草稿的,只是没有发……)
决定每天都写自己的学习博客决定了好久,今天终于开干啦(苦笑)。为了记录学习轨迹看到每天的收获和进步,并防止以前做过的东西都忘光光,忘光光,光光,光……
早上浪费光阴,下午绝对不能!于是开始干起来。先看了一下《利用python进行数据分析》里的实例,发现了好东西。果然实战中学理论才记得牢。于是结合书里处理数据集的实例,姐把自己手边的数据集搞成了这样:

    import pandas as pd
    RFItoSupp1=pd.read_csv('C:/Users/user/Desktop/Verified Buyer RFIs to P1-6 Suppliers1023.csv')
    RFItoSupp2=pd.read_csv('C:/Users/user/Desktop/Verified Buyer RFIs to P1-6 Suppliers1030.csv')
    RFItoSupp3=pd.read_csv('C:/Users/user/Desktop/Verified Buyer RFIs to P1-6 Suppliers1106.csv')
    RFItoSupp=pd.concat([RFItoSupp1,RFItoSupp2,RFItoSupp3],axis=0)  #axis=0是横向连接,axis=1是纵向连接
    RFItoSupp=RFItoSupp.reset_index(range(25062))  #重设行索引,避免出现重复
    RFItoSupp.iloc[3]  #查看索引为3的那行,记得用iloc而不用ix
    RFItoSupp.columns[1] #查看dataframe第二列
    p1=RFItoSupp.iloc[:,[0,1,7,9,13,22,23,24,25]]  #选取指定列
    p1=p1.drop(['Supplier ID'],axis=1) #删除SupplierID列
    p1['GSOL Showroom Type'].unique()  #查看该列所有值
    p1['GSOL Showroom Type'].value_counts()  #查看各个值分别出现多少次

未完待续……

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python作为一种流行的编程语言,在数据处理过程中也非常常用。但是,在处理中文属性时,Python的一些常规方法可能无法直接使用。因此,针对中文属性处理,我们需要了解一些特殊的Python库和方法。 在Python中,首先需要使用pandas库来读取中文属性的数据集。pandas是一个强大的数据分析工具,支持各种数据格式的导入和导出。然后,我们需要使用Python的新次元学习(gensim)库来处理中文文本。Gensim是用于主题建模和文档相似性建模的Python库。它可以处理中文语言,包括对文本进行分词、去除停用词以及进行词向量化等操作。 另外一个可以用于中文文本处理Python库是jieba分词库。jieba是一个开源的分词库,它可以将中文文本分成一个个独立的词语。jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,用户可以根据自己的需求进行调整。 最后,还可以使用Python的自然语言处理工具包NLTK来处理中文文本。NLTK是一款适用于人类语言处理Python库,它可以进行分类、标记、分析和翻译等操作。NLTK可以支持中文文本,我们可以使用NLTK中的分词器来将中文文本划分为单词。 综上所述,中文属性的数据集处理Python中可能需要使用额外的库和方法。在处理中文数据时,我们可以使用pandas库来读取数据,并结合gensim、jieba和NLTK等工具进行处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值