python-004_pandas.read_csv函数读取文件

最新推荐文章于 2024-07-16 21:58:09 发布

阿静我牙疼

最新推荐文章于 2024-07-16 21:58:09 发布

阅读量860

点赞数

本文链接：https://blog.csdn.net/AB_jingjing/article/details/108056441

版权

1、pandas简介

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

通过带有标签的列和索引，Pandas 使我们可以以一种所有人都能理解的方式来处理数据。从诸如 csv 类型的文件中导入数据。我们可以用它快速地对数据进行复杂的转换和过滤等操作。

它和 Numpy、Matplotlib 一起构成了一个 Python 数据探索和分析的强大基础。

2、Pandas 中的数据类型

Pandas 基于两种数据类型，series 和 dataframe。

series 是一种一维的数据类型，其中的每个元素都有各自的标签。如果你之前看过这个系列关于Numpy 的推文，你可以把它当作一个由带标签的元素组成的 numpy 数组。标签可以是数字或者字符。

dataframe 是一个二维的、表格型的数据结构。Pandas 的 dataframe 可以储存许多不同类型的数据，并且每个轴都有标签。你可以把它当作一个 series 的字典。

3、将数据导入 Pandas

例子：

# Reading a csv into Pandas.
df = pd.read_csv('uk_rain_2014.csv', header=0)

这里我们从 csv 文件里导入了数据，并储存在 dataframe 中。header 关键字告诉 Pandas 哪些是数据的列名。如果没有列名的话就将它设定为 None 。Pandas 非常聪明，所以这个经常可以省略。

4、read_csv函数的参数：

实际上，read_csv()可用参数很多，如下：

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=None, compact_ints=None, use_unsigned=None, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)[source]

filepath_or_buffer : 字符串，文件路径，或者文件句柄，或者字符串IO。字符串可能是一个URL。有效的URL方案包括http、ftp、s3和file。对于文件URL，需要主机名。例如，本地文件可以是://localhost/path/to/table.csv
header：数据开始前的列名所占用的行数。如果names参数有值，且header=0将使用names参数作为列名。如果skip_blank_lines=True，则header=0表示数据开始的第一行。header可以是一个整数的列表，如[0,1,3]。未指定的中间行将被删除
如：

In [42]: a = pd.read_csv('t.txt',header=1,names=['date','open','heigh','low','close'])
 
In [43]: a
Out[43]:
   date  open heigh   low close
0    dd    oo    hh    ll    cc
1  1226  1240  1245  1237  1241
2  1227  1246  1247  1233  1239

如：

df = pd.read_csv('ex1data1.txt', names=['population', 'profit'])#读取数据并赋予列名

对应的数组：
在这里插入图片描述

names : 列名组成的数组，缺省值 None

5、查看dataframe变量的信息：

df.info()  #查看上面例子中的dataframe变量的信息：

信息如下：

在这里插入图片描述
以上部分内容摘自：
https://blog.csdn.net/zjyklwg/article/details/79556545
https://zhuanlan.zhihu.com/p/21933466

阿静我牙疼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫