1、pandas简介
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
通过带有标签的列和索引,Pandas 使我们可以以一种所有人都能理解的方式来处理数据。从诸如 csv 类型的文件中导入数据。我们可以用它快速地对数据进行复杂的转换和过滤等操作。
它和 Numpy、Matplotlib 一起构成了一个 Python 数据探索和分析的强大基础。
2、Pandas 中的数据类型
Pandas 基于两种数据类型,series 和 dataframe。
series 是一种一维的数据类型,其中的每个元素都有各自的标签。如果你之前看过这个系列关于Numpy 的推文,你可以把它当作一个由带标签的元素组成的 numpy 数组。标签可以是数字或者字符。
dataframe 是一个二维的、表格型的数据结构。Pandas 的 dataframe 可以储存许多不同类型的数据,并且每个轴都有标签。你可以把它当作一个 series 的字典。
3、将数据导入 Pandas
例子:
# Reading a csv into Pandas.
df = pd.read_csv('uk_rain_2014.csv', header=0)
这里我们从 csv 文件里导入了数据,并储存在 dataframe 中。header 关键字告诉 Pandas 哪些是数据的列名。如果没有列名的话就将它设定为 None 。Pandas 非常聪明,所以这个经常可以省略。
4、read_csv函数的参数:
实际上,read_csv()可用参数很多,如下:
pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=None, compact_ints=None, use_unsigned=None, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)[source]
- filepath_or_buffer : 字符串,文件路径,或者文件句柄,或者字符串IO。字符串可能是一个URL。有效的URL方案包括http、ftp、s3和file。对于文件URL,需要主机名 。例如,本地文件可以是://localhost/path/to/table.csv
- header:数据开始前的列名所占用的行数。如果names参数有值,且header=0将使用names参数作为列名。如果skip_blank_lines=True,则header=0表示数据开始的第一行。header可以是一个整数的列表,如[0,1,3]。未指定的中间行将被删除
如:
In [42]: a = pd.read_csv('t.txt',header=1,names=['date','open','heigh','low','close'])
In [43]: a
Out[43]:
date open heigh low close
0 dd oo hh ll cc
1 1226 1240 1245 1237 1241
2 1227 1246 1247 1233 1239
如:
df = pd.read_csv('ex1data1.txt', names=['population', 'profit'])#读取数据并赋予列名
对应的数组:
- names : 列名组成的数组,缺省值 None
5、查看dataframe变量的信息:
df.info() #查看上面例子中的dataframe变量的信息:
信息如下:
以上部分内容摘自:
https://blog.csdn.net/zjyklwg/article/details/79556545
https://zhuanlan.zhihu.com/p/21933466