1、join:默认情况下他是把行索引相同的数据合并到一起。
merge:按照指定的列把数据按照一定的方式合并到一起。
通过merge函数合并两个DataFrame。on代表指明拿什么作为key来进行匹配。how这里分为left,right,inner,outer等方式。
t1.merge(t2,left_on="a",right_on="f",how="inner")
默认的合并方式inner,交集
merge outer,并集,NaN补全
merge left,左边为准,NaN补全
merge right,右边为准,NaN补全
2、在pandas中类似的分组的操作 df.groupby(by="columns_name")
grouped是一个DataFrameGroupBy对象,是可迭代的,grouped中的每一个元素是一个元组。
如果我们需要对国家和省份进行分组统计:
(1)grouped = df.groupby(by=[df["Country"],df["State/Province"]]) 这种情况df可以省略,因为Country和State/Province已经包含在df中。
获取分组之后的某一部分数据的计数:
(2)df.groupby(by=["Country","State/Province"])["Country"].count()
对某几列数据进行分组计数