入门数据分析选择Python还是SQL?七个常用操作对比(文末有视频教程)

入门数据分析选择Python还是SQL?七个常用操作对比

而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择

入门数据分析选择Python还是SQL?七个常用操作对比

在SQL中,进行选择的同时还可以进行计算,比如添加一列

SELECT *, tip/total_bill as tip_rate
FROM tips
LIMIT 5;

入门数据分析选择Python还是SQL?七个常用操作对比

在pandas中使用DataFrame.assign()同样可以完成这个操作

入门数据分析选择Python还是SQL?七个常用操作对比

二、查找

单条件查找

在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下

SELECT column_name,column_name
FROM table_name
WHERE column_name operator value;

比如查找示例数据中time = dinner的记录

SELECT *
FROM tips
WHERE time = 'Dinner'
LIMIT 5;

入门数据分析选择Python还是SQL?七个常用操作对比

而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行

入门数据分析选择Python还是SQL?七个常用操作对比

多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;

入门数据分析选择Python还是SQL?七个常用操作对比

在pandas中也有类似的操作

入门数据分析选择Python还是SQL?七个常用操作对比

查找空值

在pandas检查空值是使用notna()和isna()方法完成的。

frame[frame['col1'].notna()]

在SQL中可以使用IS NULL和IS NOT NULL完成

SELECT *
FROM frame
WHERE col2 IS NULL;

SELECT *
FROM frame
WHERE col1 IS NOT NULL;

三、更新

在SQL中使用UPDATE

UPDATE tips
SET tip = tip*2
WHERE tip < 2;

而在pandas中则有多种方法,比如使用loc函数

tips.loc[tips['tip'] < 2, 'tip'] *= 2

四、删除

在SQL中使用DELETE

DELETE FROM tips
WHERE tip > 9;

在pandas中,我们选择应保留的行,而不是删除它们

tips = tips.loc[tips['tip'] <= 9]

五、分组

在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询

SELECT sex, count(*)
FROM tips
GROUP BY sex;

入门数据分析选择Python还是SQL?七个常用操作对比

在pandas中的等价操作为

入门数据分析选择Python还是SQL?七个常用操作对比

注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!

六、连接

在pandas可以使用join()或merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
   ....:                     'value': np.random.randn(4)})
   ....: 

df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
   ....:                     'value': np.random.randn(4)})

内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOIN

SELECT *


## 写在最后

**在结束之际,我想重申的是,学习并非如攀登险峻高峰,而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后,持之以恒的学习变得愈发不易,如同在茫茫大海中独自划舟,稍有松懈便可能被巨浪吞噬。然而,对于我们程序员而言,学习是生存之本,是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习,我们便如同逆水行舟,不进则退,终将被时代的洪流所淘汰。因此,不断汲取新知识,不仅是对自己的提升,更是对自己的一份珍贵投资。让我们不断磨砺自己,与时代共同进步,书写属于我们的辉煌篇章。**


需要完整版PDF学习资源私我



**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以点击这里获取](https://bbs.csdn.net/topics/618540462)**

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值