摘要:日常工作和学习中通常需要将手中的csv数据进行读取、清洗、预处理然后导出。Pandas作为强大的结构化数据分析工具集,它的使用基础是Numpy,用于数据挖掘和数据分析,同时也提供数据清洗功能。本文视角从excel数据处理进行类比讲述。
pandas官方文档
Dataframe 相关应用
1.数据筛选、插入基本功能
tips = pd.read_csv(url)#读csv文件
对于pandas,通过将列名列表传递给DataFrame来完成列选择:
tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
对于pandas,可以使用DataFrame.assign()DataFrame 的方法追加新列:
tips.assign(tip_rate=tips['tip'] / tips['total_bill']).head(5)代码片
DataFrame可以通过多种方式进行过滤。最直观的方法是使用 布尔索引。
tips[tips['time'] == 'Dinner'].head(5)
多个条件,与&;或|
tips[(tips['time'] == 'Dinner') & (tips['tip'] > 5.00)]
NULL检查是使用notna()和isna() 方法完成的。