Padas DataFrame添加、删除、异常数据处理操作

最新推荐文章于 2024-05-15 20:39:26 发布

kylinxjd

最新推荐文章于 2024-05-15 20:39:26 发布

阅读量4k

点赞数 3

分类专栏：数据分析文章标签： python pandas

本文链接：https://blog.csdn.net/kylinxjd/article/details/98212689

版权

数据分析专栏收录该内容

11 篇文章 0 订阅

订阅专栏

原始数据
在这里插入图片描述

增加、删除

添加一行

# 先创建一行的series数据
dic = {
    '名字':'复仇者联盟3',
    '投票人数':4565142,
    '类型':'剧情/科幻',
    '产地':'美国',
    '上映时间':'1994-09-10 10:00:00',
    '时长':154,
    '年代':1996,
    '评分':9.5,
    '首映地点':'美国'
}
s = pd.Series(dic)
s.name = 5

append()添加会返回新的DataFrame
在这里插入图片描述
删除一行，按索引删除,drop()同样也返回新的数据

添加一列，类似于字典添加键值对，DataFrame[新列索引] = 值
在原DataFrame的基础上添加的列

删除列，与删除行一样，但是要使用axis=1指定删除列，返回新的DatFrame
在这里插入图片描述

空值操作

添加一条带空值的数据
在这里插入图片描述
查找空值
找出时长为空的数据df2[df2['时长'].isnull()]

空值替换、填充

将平均值填充到空值的位置上

# 找出非空的时长求平均值
sa = df2[~df2['时长'].isnull()]['时长'].astype(int)
avg_time = np.mean(sa)
# 填充空值，inplace设置为True是在原来数据上操作
df2['时长'].fillna(avg_time, inplace=True)

在这里插入图片描述

对所有空值进行填充
先设置三个空值

填充这里没有指定inplace则生成了新的DataFrame

删除缺失值

dropna（）
参数：how=‘all’ 删除全为空值的行或列 how='any’删除存在空值的行或列
           subset 指定筛查空值的列
           inplace 是否在源数据上操作
           axis 选中行或列默认为0，表示行
添加两条带nan值的数据
在这里插入图片描述
删除nan值所在的行

异常数据替换处理

使用replace()函数替换异常数据，替换结果生成新的dataFrame，原有数据不变，replace支持多种格式。
先创建一个DataFrame
在这里插入图片描述
将3替换成7

将5和6替换成7

将3换成6，5换成8

指定列操作
a列的5换成10

a列的1换成10，3换成9

a列的5和b列的3换成10

正则匹配替换
修改一下数据

以Li开头的替换成newLi

将以Be开头的换成newBe，Rose换成newRose
在这里插入图片描述
c列以Vi和Ch开头的换成new