20个Pandas代码 | 助力数据从业人员新征程!


640?


作者 | 爱德宝器

来源 | 数据管道(ID:adc9556)


摘要

Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。不少利用Python做数据分析的朋友应该对Pandas不陌生,这里总结了20个常用的Pandas代码帮助我们更快速的理解数据。


本文将这20个Pandas代码分成三类:


  • 基本数据信息

  • 基本数据处理

  • 操作Data frames


基本数据信息


1、基本读写数据集(CSV、Execl)

 
 
# csv	
# 读	
pd.DataFrame.from_csv(“csv_file”) 	
pd.read_csv(“csv_file”)	
	
# 写	
df.to_csv("data.csv", sep=",", index=False) # 逗号分隔,没有下标	
	
# execl	
pd.read_excel("excel_file")	
df.to_execl("data.xlsx",sheet_name='a')


2、基本数据集特征

 
 
df.info()


3、基本数据统计

 
 
df.describe()


4、将data frames输出到一张表里(tabulate模块)

 
 
from tabulate import tabulate	
print(tabulate(print_table, headers=headers))	
	
# print_table 为包含列表的列表	
# headers     为表头所包含的字段


5、列出所有的字段

 
 
df.columns


6、得到前后n行

 
 
df.head(n) #前n行	
	
df.tail(n) #后n行


7、通过特征、位置定位数据

 
 
df.loc[feature_name]	
	
#选择“size”列的第一行	
df.loc([0], ['size'])	
	
df.iloc[n]  # 位置


基本数据处理


8、去除缺失值

 
 
df.dropna(axis=0, how='any')


9、替换缺失值

 
 
df.replace(to_replace=None, value=None)	
# 将“to_replace”中的值替换为“value”


10、检查缺失值

 
 
pd.isnull(object)	
# 检测缺失值(数值数组中的NaN,对象数组中的None/NaN)


11、删除一个字段

 
 
df.drop('feature_variable_name', axis=1)	
# 轴对于行是0,对于列是1


12、将对象类型转换为数值

 
 
pd.to_numeric(df["feature_name"], errors='coerce')	
# 将对象类型转换为numeric以便能够执行计算(如果它们是字符串)


13、将Dataframe转换为numpy数组

 
 
df.as_matrix()


操作Data frames


14、将函数应用于dataframe

 
 
# 这个将把数据的“height”列中的所有值乘以2	
1、df["height"].apply(lambda height: 2 * height)	
	
2、def multiply(x):	
    return x * 2	
df["height"].apply(multiply)


15、从命名一列

 
 
# 这里,将把数据的第三列重命名为“size”	
df.rename(columns = {df.columns[2]:'size'}, inplace=True)


16、获取某列的唯一项

 
 
# 这里将得到列“name”的唯一条目	
df["name"].unique()


17、多级访问

 
 
# 在这里,将从数据中获取列的选择,“name”和“size”	
new_df = df[["name", "size"]]


18、数据的一些统计量df.sum()

 
 
df.min()	
df.max()	
df.idxmin()	
df.idxmax() #返回最大值索引	
df.mean()	
df.median()	
df.corr()  # 不同列之间的相关系数	
df["size"].median


19、 数据排序

 
 
df.sort_values(ascending = False)


20、布尔索引

 
 
df[df["size"] == 5] #布尔型索引

部分参考

https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38


原文地址


(*本文仅代表作者观点,转载请联系原作者)


CTA核心技术及应用峰会

5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。


更多重磅嘉宾请识别海报二维码查看。大会倒计时 1 天,少量余票即将售罄,欢迎点击阅读原文购票参会!更多详细信息15101014297,备注“CTA”,了解票务以及会务详情。


640?wx_fmt=jpeg

点击阅读原文,了解CTA核心技术及应用峰会

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值