深度学习——关于Pandas库的一些问题(3)
pandas库
在做数据处理时看到了这个库和一些相关的函数应用,不是很明白,在查找文档和实际使用中进行了一些总结
Python中的使用
在使用pandas库之前我们需要先install,下面介绍两种方法
-
使用第三方工具pycharm
在pycharm中点击File->Settings->Project:Learning->Python Interpreter
点击“ + ”,输入pandas,点击Install Package,就可以啦
-
用pip加载模块
在pycharm中选择Terminal或者在Anaconda Prompt中activate tensorflow
输入命令,就可以了
pip install pandas
- 在python中导入
import pandas as pd
Pandas是什么
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
关于他的更多介绍指路官网
Pandas 的主要数据结构是 Series (opens new window)(一维数据)与 DataFrame (opens new window)(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
Series
Series是带标签的一维数组,可以存储整数、浮点数、字符串、python对象等类型的数据。轴标签统称为索引
调用格式
s = pd.Series(data, index=index)
其中data为数据,支持
- python字典
- 多维数组
- 标量值(data 是标量值时,必须提供索引。Series 按索引长度重复该标量值。)
index为轴标签,可缺省,缺省时默认为从零开始的整数
PS:Pandas 用 NaN(Not a Number)表示缺失数据。
DataS1 = pd.Series([1, 2, 3, 4, 5])
print("Data_Series1:", DataS1)
DataS2 = pd.Series([1, 2, 3, 4, 5],index=['a', 'b', 'c', 'd', 'e'])
print("Data_Series2:", DataS2)
DataS3 = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5})
print("Data_Series3:", DataS3)
# Data_Series1: 0 1
# 1 2
# 2 3
# 3 4
# 4 5
# dtype: int64
# Data_Series2: a 1
# b 2
# c 3
# d 4
# e 5
# dtype: int64
# Data_Series3: a 1
# b 2
# c 3
# d 4
# e 5
# dtype: int64
DataFrame
DataFrame 是由多种类型的列构成的二维标签数据结构,类似于 Excel 、SQL 表,或 Series 对象构成的字典。DataFrame 是最常用的 Pandas 对象,与 Series 一样,DataFrame 支持多种类型的输入数据:
- 一维 ndarray、列表、字典、Series 字典
- 二维 numpy.ndarray
- 结构多维数组或记录多维数组(opens new window)
- Series
- DataFrame
除了数据,还可以有选择地传递 index(行标签)和 columns(列标签)参数。传递了索引或列,就可以确保生成的 DataFrame 里包含索引或列。Series 字典加上指定索引时,会丢弃与传递的索引不匹配的所有数据。
没有传递轴标签时,按常规依据输入数据进行构建。
d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print("Data_DataFrame1:", df)
# Data_DataFrame1: one two
# a 1.0 1.0
# b 2.0 2.0
# c 3.0 3.0
# d NaN 4.0