tips.loc[tips['tip']
四、删除
在SQL中使用DELETEDELETE FROM tipsWHERE tip > 9;
在pandas中,我们选择应保留的行,而不是删除它们tips = tips.loc[tips['tip'] <= 9]
五、分组
在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。
常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询SELECT sex, count(*)FROM tipsGROUP BY sex;
在pandas中的等价操作为
注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!
六、连接
在pandas可以使用join()或merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。
现在让我们重新创建两组示例数据,分别用代码来演示不同的连接df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
....: 'value': np.random.randn(4)})
....:
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
....: 'value': np.random.randn(4)})
内连接
内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOINSELECT *FROM df1INNER JOIN df2
ON df1.key = df2.key;
在pandas中可以使用merge()
merge()提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起
左/右外联接
在SQL中实现左/右外连接可以使用LEFT OUTER JOIN和RIGHT OUTER JOINSELECT *FROM df1LEFT OUTER JOIN df2
ON df1.key = df2.key;
SELECT *FROM df1RIGHT OUTER JOIN df2
ON df1.key = df2.key;
在pandas中实现同样可以使用merge()并指定how关键字为left或者right即可
全连接
全连接返回左表和右表中的所有行,无论是否匹配,但并不是所有的数据库都支持,比如mysql就不支持,在SQL中实现全连接可以使用FULL OUTER JOINSELECT *FROM df1FULL OUTER JOIN df2
ON df1.key = df2.key;
在pandas中实现同样可以使用merge()并指定how关键字为outer
七、合并
SQL中UNION操作用于合并两个或多个SELECT语句的结果集,UNION与UNION ALL类似,但是UNION将删除重复的行。示例代码如下SELECT city, rankFROM df1UNION ALLSELECT city, rankFROM df2;/*
city rank
Chicago 1
San Francisco 2
New York City 3
Chicago 1
Boston 4
Los Angeles 5
*/
在pandas中可以使用concat()实现UNION ALL
上面是UNION ALL保留重复值,如果希望删除可以使用 drop_duplicates()
以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性