数据载入
一、导入numpy与pandas
import numpy as np
import pandas as pd
注:若报错,返回conda环境中安装numpy与pandas
即在cmd进入conda环境输入
pip install numpy
pip install pandas
二、载入数据
df = pd.read_csv('./train.csv')
三、函数使用
groupby()
.groupby() 方法是用来对数据进行分组操作的。当你想要对数据集中的行进行分组,并且每组应用一些聚合操作,比如求和、平均值、最大值或最小值等,这个方法非常有用。
grouped = df.groupby(by=['column_name_1', 'column_name_2'])
unique(),nunique(),drop_duplicates()
三个唯一值函数,可以统计数据中的唯一值相关数据
replace(),where(),mask()三个替换函数
replace函数为映射替换
where 函数在传入条件为 False 的对应行进行替换
mask 在传入条件为 True 的对应行进行替换,当不指定替换值时,替换为缺失值。这两个函数为逻辑替换
abs()等函数为数值替换,对数值进行修改。