1. pandas导包
import pandas as pd:导入pandas包。
2. read_csv
df = pd.read_csv('./data.csv'):读取csv数据
3. head
df.head(20):读取前20条数据,默认前10条
4. info
df.info():返回当前的信息
5. index
df.index:查看当前的索引范围及步长,步长默认为1
6. columns
df.columns:查看列名
7. dtypes
df.dtypes:查看列数据类型
8. values
df.values:获取数组格式,方便计算使用
9. 创建dataframe
创建一个dataframe结构:
data = {'country':['a','b','c'], 'population':[2,10,13]}
df_data = pd.DataFrame(data)
country | population | |
0 | a | 2 |
1 | b | 10 |
2 | c | 13 |
10. 取数据
类似字典和列表的处理,拿到一列数据。
age = df['country']
age[:5]
11. 指定索引
df = df.set_index('country')
pop = df['population'] # 获取列数据
pop['country'] # 通过指定索引获取数据
12. 对列数据处理
对每一列数据做加(乘)操作
pop = pop + 10
pop = pop * 5
13. mean
pop.mean() :求'population'列的均值
14. max
pop.max() :求'population'列的最大值
15. min
pop.min() :求'population'列的最小值
16. describe
describe()可以得到数值类型数据的基本统计特性
df.describe()
17. 索引定位
loc 用label来去定位
df = df.set_index('country')
df.loc['a']
df.loc['a']['population']
iloc 用position来去定位,类似列表操作
df.iloc[0]
df.iloc[0:5]
df.iloc[0:5,1:3]
18. 布尔类型的索引
df['population'] > 10 # 返回对应的索引的true或false
df[df['population'] > 10][:5]:选择'population'列大于10的前5条数据