话不多说,先看怎么修改某一列的最大值。
那首先就要先找到该列的最大值:
import numpy as np
import pylab as plt
plt.style.use("ggplot")
import pandas as pd
df = pd.DataFrame({"A":[1,2,333,444,5,6],"B":[2,2,56,784,1,90]})
print(df)
df:
A B
0 1 2
1 2 2
2 333 56
3 444 784
4 5 1
5 6 90
看一列的最大值
print(df.loc[:,"A"].max())
输出:444
这里涉及到了loc的用法,iloc与loc都是dataframe常用的索引方式,个人认为loc可能用的更多一点。loc是基于标签的索引方式,iloc是基于位置坐标的。
例如在上个语句中,loc[:,“A”]。:表示行取得是所有的行,列则为"A"列,那么这样索引得到的就是A列所有值,之后再取max就得到了最大值。
若要修改最大值为90:
df.loc[df["A"]==df.loc[:,"A"].max(),"A"] = 90
print(df)
输出:
A B
0 1 2
1 2 2
2 333 56
3 90 784
4 5 1
5 6 90
这里是loc函数用的最多的形式。个人理解:loc里面两个参数分别是条件(取哪一行)与取哪一列(位置)。
df.loc[df["A"]==df.loc[:,"A"].max(),"A"]
中的前半段
df["A"]==df.loc[:,"A"].max()
即索引的条件,也就把行给限制了,就是只能取A列值为最大的那一行,但是行找到了,列怎么确定呢,就是逗号后面的"A"的作用了,在精确定位到该数后,替换为90即可。