Pandas模块的知识——数据预处理

一、dataframe结构

  1. 读取CSV文件
    pandas.read_csv(‘C:/Users/86183/Desktop/123.csv’) 为Dataframe类型
  2. 文件类型查看

|print(type(food))| |
字符型得值叫Object

-3
food.head() 如果括号里默认值,则只显示前四行,如果括号值为8,则显示前八行
food.tail(4) 从后往前得四个值
列名,指标得查看,即为第一行。food.columns
4、取数据
food.loc[0] 取第一个数据
5、dataframe类型
object 字符类型
int 整型
float 浮点型
datetime 时间类型
bool 布尔类型
6、通过列名称来定位
xuhao = food[“xuhao”]
得到序号得列中得第几个和第几个对应得数字
定位两个列:colu =[“xuhao,men”]
huo =food.colu.tolist()
7、数据计算
div_1000 = food[“mouyilie”]/100
对应位置得计算*/
8、最大值最小值均值
某一列得最大值 food[“列名”].max
归一化操作: normalized_lie =food[“lie”]/food[“lie”].max()
9、排序得操作
new =food.sort_values(“lie”,inplace=True) 从小到大排列
Inplace来确定是在原来基础上排序,还是在新增得图表中排序
new= food.sort_values(“lie”,inplace=True,ascending =False) 从大到小排列。默认是升序排列
(2)不仅要把所对应得列进行排序,还希望把索引顺序号排列,
new_reindex=nei.reset_index(drop=True) ,为true表示为原来的索引值不要了
10、age_is_null = pandas.isull(age) 判断年龄列是否有缺失值,有缺失为true。无确实为false。
len()计算长度
在计算平均值时,如果有缺失值Nan,那么需要去掉缺失值。方法如下
good=food[“列名”][age_is_full==False]
平均值food[“列名”].mean()
11、pivot_table 统计
food.pivot_table(index=“为基准得列表名”,values=“统计值和基准量之间得关系”,aggfunc=np.mean)
计算平均值,如果后面不写,默认均值
12、丢掉缺失值
food.dropna(axis=1)丢掉缺失值
food.dropna(axis=,subset=[“列1”,“列2”])
13、定位
food.loc[8,“age”] 对food得表格第8行得对应得age列得数
14、apply函数。
把定义的函数应用到表格中。
二、series 某一行某一列叫series

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值