使用pandas进行数据快捷加载

本文介绍了如何利用pandas库加载和操作CSV数据。通过示例展示了如何从CSV文件中读取数据,处理列名,提取特定列,并了解数据集的维度。pandas的数据框(DataFrame)和Series为数据预处理提供了便利。文章还提到了数据科学中的常见步骤,如特征和目标标签的分离,以及获取数据集大小的方法。
摘要由CSDN通过智能技术生成

导读:在已经准备好工具箱的情况下,我们来学习怎样使用pandas和NumPy对数据进行加载、操作、预处理与打磨。

让我们先从CSV文件和pandas开始。

pandas库提供了最方便、功能完备的函数,能从文件(或URL)加载表格数据。默认情况下,pandas会将数据存储到一个专门的数据结构中,这个数据结构能够实现按行索引、通过自定义的分隔符分隔变量、推断每一列的正确数据类型、转换数据(如果需要的话),以及解析日期、缺失值和出错数据。

我们将从导入pandas包和读取Iris数据集开始:

In:import pandas as pd
Iris_filename=’datasets-uci-iris.csv’
Iris=pd.read_csv(iris_filename,sep=’_’,decimal=’_’,heade=None,
                 names=[‘sepal_length’,‘sepal_width’
                        ‘petal_length’,‘petal_width’
                        ‘target’])

通过上面的命令,可以指定文件名、分隔符(sep)、小数点占位符(decimal)是否有标题(header)以及变量名称(使用names和列表)。分隔符和小数点占位符的默认设置为sep=',' 和decimal='.',在上面的函数中这些设置显得有些多余。但是,对于欧洲格式的CSV文件需要明确指出这两个参数,这是因为许多欧洲国家的分隔符和小数点占位符都与默认值不同。

如果数据集不能在线使用,可以按照如下步骤从互联网上下载:

In:import urllib
  url=”http://aima.cs.berkeley.edu/data/iris.csv”
  set1=urllib.request.Request(ur1)
  iris_p=urllib.request.urlopen(set1)
  iris_other=pd.read_csv(iris_p,sep=',',decimal='.', 
        header=None, names=[‘sepal_length’,‘sepal_width’                                                                                                                 
                            ‘petal_length’,‘
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值