Python学习教程:20个Pandas代码 助数据从业人员开启新征程!
摘要
Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。不少利用Python做数据分析的朋友应该对Pandas不陌生,这里给大家总结了20个常用的Pandas代码帮助大家更快速的理解数据。
我这里将这20个Pandas代码分成三类:
- 基本数据信息
- 基本数据处理
- 操作Data frames
基本数据信息
1、基本读写数据集(CSV、Execl)
# csv # 读 pd.DataFrame.from_csv(“csv_file”) pd.read_csv(“csv_file”) # 写 df.to_csv("data.csv", sep=",", index=False) # 逗号分隔,没有下标 # execl pd.read_excel("excel_file") df.to_execl("data.xlsx",sheet_name='a')
2、基本数据集特征
df.info()
3、基本数据统计
df.describe()
4、将data frames输出到一张表里(tabulate模块)
from tabulate import tabulate print(tabulate(print_table, headers=headers)) # print_table 为包含列表的列表 # headers 为表头所包含的字段
5、列出所有的字段
df.columns
6、得到前后n行
df.head(n) #前n行 df.tail(n) #后n行
7、通过特征、位置定位数据
df.loc[feature_name] #选择“size”列的第一行 df.loc([0], ['size']) df.iloc[n] # 位置
基本数据处理
8、去除缺失值
df.dropna(axis=0, how='any')
9、替换缺失值
df.replace(to_replace=None, value=None) # 将“to_replace”中的值替换为“value”
10、检查缺失值
pd.isnull(object) # 检测缺失值(数值数组中的NaN,对象数组中的None/NaN)
11、删除一个字段
df.drop('feature_variable_name', axis=1) # 轴对于行是0,对于列是1
12、将对象类型转换为数值
pd.to_numeric(df["feature_name"], errors='coerce') # 将对象类型转换为numeric以便能够执行计算(如果它们是字符串)
13、将Dataframe转换为numpy数组
df.as_matrix()
操作Data frames
14、将函数应用于dataframe
# 这个将把数据的“height”列中的所有值乘以2 1、df["height"].apply(lambda height: 2 * height) 2、def multiply(x): return x * 2 df["height"].apply(multiply)
15、从命名一列
# 这里,将把数据的第三列重命名为“size” df.rename(columns = {df.columns[2]:'size'}, inplace=True)
16、获取某列的唯一项
# 这里将得到列“name”的唯一条目 df["name"].unique()
17、多级访问
# 在这里,将从数据中获取列的选择,“name”和“size” new_df = df[["name", "size"]]
18、数据的一些统计量df.sum()
df.min() df.max() df.idxmin() df.idxmax() #返回最大值索引 df.mean() df.median() df.corr() # 不同列之间的相关系数 df["size"].median
19、 数据排序
df.sort_values(ascending = False)
20、布尔索引
df[df["size"] == 5] #布尔型索引
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69923331/viewspace-2646584/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/69923331/viewspace-2646584/