数据分析常用的 23 个 Pandas 代码,收好不谢

文:George Seif
编译:之肴
来源: towardsdatascience.com/23-great-pa…

这儿有给数据分析师的 23 个 Pandas 代码,可以帮你更好地理解数据!Pandas 想必从事数据分析的各位都懂,这是一个开源的,BSD 许可的库,为 Python 编程语言提供高性能,易于使用的数据结构和数据分析工具。还不熟悉的新手可以复制官网链接,10 分钟快速了解下:pandas.pydata.org/pandas-docs…


应用案例集合也可以看看:pandas.pydata.org/pandas-docs…


(1)读入 CSV 数据集

pd.DataFrame.from_csv(“csv_file”)
复制代码

或者:

pd.read_csv(“csv_file”)
复制代码


(2)读入 Excel 数据集

pd.read_excel("excel_file")
复制代码


(3)直接把数据写入 CSV

如数据以逗号分隔,且没有索引:

df.to_csv("data.csv", sep=",", index=False)
复制代码


(4)基础数据集特征信息

df.info()
复制代码


(5)基础数据集统计结果

print(df.describe())
复制代码


(6) 以表格形式打印数据

print(tabulate(print_table, headers=headers))
复制代码

其中“print_table”是一列list,“headers”是一列字符串抬头


(7)列出列名称

df.columns
复制代码


基本数据处理


(8)删除缺失的数据

df.dropna(axis=0, how='any')
复制代码

返回给定轴上标签的对象,逐个丢掉相应数据。


(9)替换丢失的数据

df.replace(to_replace=None, value=None)
复制代码

用“value”的值替换“to_replace”中给出的值。


(10)检查 NAN

pd.isnull(object)
复制代码

检测缺失值(有数值数组中的NaN,对象数组中的None和NaN)


(11)删除特征

df.drop('feature_variable_name', axis=1)
复制代码

轴为 0 代表行,1 代表列


(12)将对象类型转换为 float

pd.to_numeric(df["feature_name"], errors='coerce')
复制代码

将对象类型转换为数字型以便计算(如果它们是字符串的话)


(13)将数据转换为 Numpy 数组

df.as_matrix()
复制代码


(14)获取数据的头“n”行

df.head(n)
复制代码


(15)按特征名称获取数据

df.loc[feature_name] 
复制代码


(16)将函数应用于数据

这个函数将数据里“height”一列中的所有值乘以2

df["height"].apply(*lambda* height: 2 * height)
复制代码

或:

def multiply(x):

 return x * 2

df["height"].apply(multiply)
复制代码


(17)重命名数据列

这里我们将数据的第3列重命名为“size”

df.rename(columns = {df.columns[2]:'size'}, inplace=True)
复制代码


(18)单独提取某一列

df["name"].unique()
复制代码


(19)访问子数据

我们从数据中选择“name”和“size”两列

new_df = df[["name", "size"]]
复制代码


(20)总结数据信息

#数据之和df.sum()
#数据中的最小值df.min()
#数据中的最大值df.max()
#最小值的索引df.idxmin()
#最大值的索引df.idxmax()
#数据统计信息,有四分位数,中位数等df.describe()
#平均值df.mean()
#中位数值df.median() 
复制代码


(21)对数据进行排序

df.sort_values(ascending = False)
复制代码


(22)布尔索引

这里我们过滤“size”的数据列,以显示等于5的值:

df[df["size"] == 5]
复制代码


(23)选择某值

选择“size”列的第一行:

df.loc([0], ['size'])
复制代码



那么问题来了,程序员该如何系统学习数据分析?

通过职业路径的规划,在 Udacity 一站式学习「数据科学」学院课程,配合硅谷权威课程内容、名企实战项目以及个性化的学习辅导,帮助每一位学员在「数据科学」这条职业道路上拒绝弯路,零压力入门,短期、高效的学习每个阶段和职业路程上的必备知识和经验。

你可以在 “优达数据科学学院” 找到适合自己的学习规划,并在行业专家的引导下,避开学习误区,高效掌握数据分析核心技能,轻松远超行业竞争者,斩获高薪 Offer!



如果你是以下三类人群:

  • 负数据/统计基础,想要加入数据人才红利的小白;
  • 有一定编程经验,面临着职业和年薪瓶颈的转型者;
  • 想要在数据科学领域或者学术领域深耕的专业人士;

你都将在 Udacity 数据科学学院得到解决方案,获得更清晰、更高效的学习路径,进而掌握核心技术,get 丰富的实战经验,快速提升职场竞争力!


来体验下我们的新学院 ba!




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值