python-004_pandas.read_csv函数读取文件

1、pandas简介

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

通过带有标签的列和索引,Pandas 使我们可以以一种所有人都能理解的方式来处理数据。从诸如 csv 类型的文件中导入数据。我们可以用它快速地对数据进行复杂的转换和过滤等操作。

它和 NumpyMatplotlib 一起构成了一个 Python 数据探索和分析的强大基础。

2、Pandas 中的数据类型

Pandas 基于两种数据类型,series 和 dataframe。

series 是一种一维的数据类型,其中的每个元素都有各自的标签。如果你之前看过这个系列关于Numpy 的推文,你可以把它当作一个由带标签的元素组成的 numpy 数组。标签可以是数字或者字符。

dataframe 是一个二维的、表格型的数据结构。Pandas 的 dataframe 可以储存许多不同类型的数据,并且每个轴都有标签。你可以把它当作一个 series 的字典。

3、将数据导入 Pandas

例子:

# Reading a csv into Pandas.
df = pd.read_csv('uk_rain_2014.csv', header=0)

这里我们从 csv 文件里导入了数据,并储存在 dataframe 中。header 关键字告诉 Pandas 哪些是数据的列名。如果没有列名的话就将它设定为 None 。Pandas 非常聪明,所以这个经常可以省略。

4、read_csv函数的参数:

实际上,read_csv()可用参数很多,如下:

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=None, compact_ints=None, use_unsigned=None, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)[source]
  • filepath_or_buffer : 字符串,文件路径,或者文件句柄,或者字符串IO。字符串可能是一个URL。有效的URL方案包括http、ftp、s3和file。对于文件URL,需要主机名 。例如,本地文件可以是://localhost/path/to/table.csv
  • header:数据开始前的列名所占用的行数。如果names参数有值,且header=0将使用names参数作为列名。如果skip_blank_lines=True,则header=0表示数据开始的第一行。header可以是一个整数的列表,如[0,1,3]。未指定的中间行将被删除
    如:
In [42]: a = pd.read_csv('t.txt',header=1,names=['date','open','heigh','low','close'])
 
In [43]: a
Out[43]:
   date  open heigh   low close
0    dd    oo    hh    ll    cc
1  1226  1240  1245  1237  1241
2  1227  1246  1247  1233  1239

如:

df = pd.read_csv('ex1data1.txt', names=['population', 'profit'])#读取数据并赋予列名

对应的数组:
在这里插入图片描述

  • names : 列名组成的数组,缺省值 None

5、查看dataframe变量的信息:

df.info()  #查看上面例子中的dataframe变量的信息:

信息如下:

在这里插入图片描述
以上部分内容摘自:
https://blog.csdn.net/zjyklwg/article/details/79556545
https://zhuanlan.zhihu.com/p/21933466

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值