使用pandas进行数据快捷加载

hzbooks

于 2020-09-18 07:00:00 发布

阅读量739

点赞数

文章标签： python 人工智能数据分析机器学习编程语言

本文链接：https://blog.csdn.net/hzbooks/article/details/108675804

版权

本文介绍了如何利用pandas库加载和操作CSV数据。通过示例展示了如何从CSV文件中读取数据，处理列名，提取特定列，并了解数据集的维度。pandas的数据框（DataFrame）和Series为数据预处理提供了便利。文章还提到了数据科学中的常见步骤，如特征和目标标签的分离，以及获取数据集大小的方法。

摘要由CSDN通过智能技术生成

导读：在已经准备好工具箱的情况下，我们来学习怎样使用pandas和NumPy对数据进行加载、操作、预处理与打磨。

让我们先从CSV文件和pandas开始。

pandas库提供了最方便、功能完备的函数，能从文件（或URL）加载表格数据。默认情况下，pandas会将数据存储到一个专门的数据结构中，这个数据结构能够实现按行索引、通过自定义的分隔符分隔变量、推断每一列的正确数据类型、转换数据（如果需要的话），以及解析日期、缺失值和出错数据。

我们将从导入pandas包和读取Iris数据集开始：

In:import pandas as pd
Iris_filename=’datasets-uci-iris.csv’
Iris=pd.read_csv(iris_filename,sep=’_’,decimal=’_’,heade=None,
                 names=[‘sepal_length’,‘sepal_width’
                        ‘petal_length’,‘petal_width’
                        ‘target’])

通过上面的命令，可以指定文件名、分隔符（sep）、小数点占位符（decimal）、是否有标题（header）以及变量名称（使用names和列表）。分隔符和小数点占位符的默认设置为sep=',' 和decimal='.'，在上面的函数中这些设置显得有些多余。但是，对于欧洲格式的CSV文件需要明确指出这两个参数，这是因为许多欧洲国家的分隔符和小数点占位符都与默认值不同。

如果数据集不能在线使用，可以按照如下步骤从互联网上下载：

In:import urllib
  url=”http://aima.cs.berkeley.edu/data/iris.csv”
  set1=urllib.request.Request(ur1)
  iris_p=urllib.request.urlopen(set1)
  iris_other=pd.read_csv(iris_p,sep=',',decimal='.', 
        header=None, names=[‘sepal_length’,‘sepal_width’                                                                                                                 
                            ‘petal_length’,‘

最低0.47元/天解锁文章

hzbooks

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用pandas进行数据快捷加载

导读：在已经准备好工具箱的情况下，我们来学习怎样使用pandas和NumPy对数据进行加载、操作、预处理与打磨。让我们先从CSV文件和pandas开始。pandas库提供了最方便、功能完...
复制链接

扫一扫