Pandas 简介

最新推荐文章于 2022-04-11 09:52:11 发布

weixin_34233856

最新推荐文章于 2022-04-11 09:52:11 发布

阅读量80

点赞数

文章标签：数据结构与算法人工智能 python

原文链接：https://my.oschina.net/1181360/blog/3018696

版权

2019独角兽企业重金招聘Python工程师标准>>>

学习目标：

大致了解pandas库的DataFrame和Series数据结构
存取和处理DataFrame和Series中的数据
将CSV数据导入pandas库的DataFrame
对DataFrame重建索引来随机打乱数据 pandas是一种存取数据分析API。他是用于处理和分析输入数据的强大工具，很多机器学习框架都支持将pandas数据结构作为输入。本文只讲解他的核心内容。有关完整参考请访问pandas文档网站。

1. 基本概念

pandas中的主要数据结构为以下两类

DataFrame，类似于关系型数据表格，其中包含多个行和已命名的列
Series，类似于Excel中的一列 DataFrame中包含一个或者多个Series，而且每个Series都有一个名称

导入pandas：

import pandas as pd

创建Series对象：

pd.Series(['海淀','朝阳','昌平'])

您可以将映射 string 列名称的 dict 传递到它们各自的 Series，从而创建DataFrame对象。如果 Series 在长度上不一致，系统会用特殊的 NA/NaN 值填充缺失的值。例如：

dist_names = pd.Series(['海淀','朝阳','昌平'])
population = pd.Series([852469, 1015785, 485199])
pd.DataFrame({ 'Dist_name': dist_names, 'Population': population })

但是在大多数情况下，您需要将整个文件加载到 DataFrame 中。下面的示例加载了一个包含加利福尼亚州住房数据的文件。请运行以下单元格以加载数据，并创建特征定义：

beijing_house_price_dataframe = pd.read_csv("https://raw.githubusercontent.com/githubtx/datasets/master/bj_chengjiao.csv", sep=",",encoding="gbk")
beijing_house_price_dataframe.describe()

上面的示例使用 DataFrame.describe 来显示关于 DataFrame 的有趣统计信息。另一个实用函数是 DataFrame.head，它显示 DataFrame 的前几个记录：

beijing_house_price_dataframe.head()

pandas 的另一个强大功能是绘制图表。例如，借助 DataFrame.hist，您可以快速了解一个列中值的分布：

beijing_house_price_dataframe.hist('area')

2. 数据访问

可以使用熟悉的Python dict/list 指令访问DataFrame 数据：

data = pd.DataFrame({ 'Dist_name': dist_names, 'Population': population })
print(type(data['Dist_name']))
data['Dist_name']
data['Population'][1]
data[0:2]

3. 数据操控

可以向Series应用Python的基本运算指令。如：

population/1000

对于更复杂的单列转换，您可以使用 Series.apply。像 Python 映射函数一样，Series.apply 将以参数形式接受 lambda 函数，而该函数会应用于每个值。

下面的示例创建了一个指明 population 是否超过 100 万的新 Series：

population.apply(lambda val: val > 1000000)

DataFrames 的修改方式也非常简单。例如，以下代码向现有 DataFrame 添加了两个 Series：

data['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
data['Population density'] = data['Population'] / data['Area square miles']
data

Series 和 DataFrame 对象也定义了 index 属性，该属性会向每个 Series 项或 DataFrame 行赋一个标识符值。默认情况下，在构造时，pandas 会赋可反映源数据顺序的索引值。索引值在创建后是稳定的；也就是说，它们不会因为数据重新排序而发生改变。重建索引是一种随机排列 DataFrame 的绝佳方式。在下面的示例中，我们会取用类似数组的索引，然后将其传递至 NumPy 的 random.permutation 函数，该函数会随机排列其值的位置。如果使用此重新随机排列的数组调用 reindex，会导致 DataFrame 行以同样的方式随机排列。尝试多次运行以下单元格！

data.reindex(np.random.permutation(cities.index))

转载于:https://my.oschina.net/1181360/blog/3018696

weixin_34233856

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas 简介

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫