上一篇还有一个知识点就是,相关系数
#得出表中列与列之间的相关性大小
part4 多表联合查询(join)
1、多表联合
excel中是用vlookup,pandas中是用merge和join,数据库中用join。
#读取第一张表
如果,没有on='ID'这一参数,也能得出结果,因为merge能自动去在两张表查出相同的列名。
但如果这里把【ID】这一列设为index,就不存在共同的列(因为设置为index的列不是列)merge就不知道如何联结。
#读取第一张表,设置index
可以用下面的代码,加上left_on和right_on的参数
#读取第一张表
上面的情况如果用join的话,就可以自动找到index,代码如下:
#读取第一张表
2、数据校验,轴的概念
excel中的Score列有异常数值,如何查找异常值呢?
2.1运用assert函数
import
可看出结果没有对齐,可用't'这个横向制表符
2.2运用if...else函数
def
查出异常后,一般有两种方法:清理数据或者数据更正
3、把一列数据分割成两列
df
分列成了一个list里有两个元素
给spilt设置参数expand
df