python 依据某几列累加求和_Python数据分析(2)-pandas versus excel

这篇博客探讨了Python数据分析库pandas与Excel在处理数据时的不同方法,包括多表联合查询、数据校验、数据分割、统计函数、行/列操作等。通过实例展示了如何在pandas中进行求和、平均值计算、去除重复数据、创建透视表、进行线性回归预测以及条件格式化。同时,文章强调了基础操作如添加、删除和修改行/列的重要性。
摘要由CSDN通过智能技术生成

ab2252c0e38e3f2fbd8ca8a07bd0e992.png

上一篇还有一个知识点就是,相关系数

#得出表中列与列之间的相关性大小

part4 多表联合查询(join)

1、多表联合

excel中是用vlookup,pandas中是用merge和join,数据库中用join。

#读取第一张表

3e1197b8922c203ce12a139b67915168.png

如果,没有on='ID'这一参数,也能得出结果,因为merge能自动去在两张表查出相同的列名。

但如果这里把【ID】这一列设为index,就不存在共同的列(因为设置为index的列不是列)merge就不知道如何联结。

#读取第一张表,设置index

d044e7cd7ec06fcbdea3120e6edf64f7.png

可以用下面的代码,加上left_on和right_on的参数

#读取第一张表

上面的情况如果用join的话,就可以自动找到index,代码如下:

#读取第一张表

c4850eeb2f9c8e071c3485051e7afbe2.png

2、数据校验,轴的概念

excel中的Score列有异常数值,如何查找异常值呢?

dfeed79570c784a558fc5361f0fd7dd5.png

2.1运用assert函数

import 

20c6ea3715415596db4307bacbd6d9a1.png

可看出结果没有对齐,可用't'这个横向制表符

e49fb0d770fe217c441bcfea9dae85e3.png

2.2运用if...else函数

def 

查出异常后,一般有两种方法:清理数据或者数据更正

3、把一列数据分割成两列

df

分列成了一个list里有两个元素

434ccdb6ddf5d47b345114d2809ba903.png

给spilt设置参数expand

df

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值