Pandas是当前最流行、最常用的数据分析工具。当处理表格数据(比如存储在电子表格或数据库中的数据)时,pandas是最适合您的工具。它将帮助您探索、清理和处理您的数据。数据表被称为DataFrame,panda支持与多种文件格式或数据源的集成(csv、excel、sql、json、parquet…)。从每个数据源导入数据是由前缀为read *的函数提供的。类似地,to_*方法用于存储数据……选择或过滤特定的行和或列?过滤条件下的数据?在pandas中可以使用切片、选择和提取所需数据的方法。它是基于numpy,且集成了matplotlib模块。
全面支持数据分析项目的研发步骤 ( 获取->清洗 -> 处理并计算 -> 视图分析 );
提供获取、存储数据功能 ( csv、json、excel… );
清洗数据及扩充数据类型;
对数据进行过滤、选择;
聚合计算 ( max、min、mean… );
使用方法:
import pandas as pd
from pandas import Series
# 1、一维数组
sel = Series(data=[1,2,3,4], index=['a','b','c','d'])
result= list(sel.iteritems())
""" Result:
[('a', 1), ('b', 2), ('c', 3), ('d', 4)]
"""
# 2、传入字典
dict = {"rad" : 100,'ji':200,'sad':900