python怎么筛选excel数据_数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快...

在开始之前,再次强调一下:

本内容为高频常用的数据处理操作对比,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。

本内容尽量简单直白、详细步骤,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。

cfa1a27c1e87d8aeffa62aad49b2b9f1.jpeg-wh_651x-s_176401558.jpeg

关于网友的留言,老海也反馈一下自己的看法

之前有网友留言说:

“SQL从来不是工具,它是语言!”

说实话,我很吃惊。在我的理解中,语言的本质就是工具,而百度百科也是这样定义的:

语言即传递信息的声音。是人类最重要的交际工具,是人们进行沟通的主要表达方式

自然语言也好、计算机语言、数据库语言也好,就是人与人、人与机之间沟通的一种编码解码工具。

0b290210db6a4bdd46a94e57aaeafc5f.jpeg

语言作为一种沟通工具,通常需要通过一定的实体载体来记录和传达,不能独立存在。

就如英语是门语言,也是沟通工具,而听、说、读、写是它的传达方式,是工具化的载体。

SQL也是一样,它是语言工具,而MySQL、HiveSQL等等数据库工具都是它的设计表达载体。

4173b18080038dff578bca7b63c56003.jpeg

回头看我们为什么要学英语?,为什么要学Python?,为什么要学SQL?

相信你的理由,绝对不仅仅它是一门语言或者文化,否则只会像高中应试外语那么难受!

更多的时候是出于实现某种目的,而刺激我们主动去寻找这样一种可以实现思考沟通的工具

总之,语言即是工具。凡是工具,不拘一格,皆为所用!

还有网友留言说:

“Power BI 只是可视化厉害一点儿,其他都不行”

OK,我们来看看这几年PowerBI发展趋势,你会发现它比Tableau更加强大,与其他BI产品的差异也是越来越大,这与微软本身的用户环境和软件家族存在很大关系。

31b40b50863fa7f7cd524dbd9bc58875.jpeg

2020

c5d15caf42e45f093d9fd1779d9ab4d3.jpeg

2019年

再来看看招聘网站上的要求,PowerBI近几年开始逐步成为主力工具,比如运营部门、财务部门、商业分析等覆盖的业务范围越来越广。

546d70ab6ee8d9d8f5438f0fbcd61747.jpeg-wh_600x-s_3580884048.jpeg

饿了吧招聘要求

a3e6424038e6d93f21df17729a274c9f.jpeg

阿里招聘要求

以前Python一直是我的主力工具,可是现在老海强推Power BI,甚至建议首选它来做商业分析

一个公式:Power BI 数据分析流程 = PQ + PP + PV

即PowerQuery—数据处理查询、PowerPivot—数据结构建模、PowerView—数据图表可视化

这个流程顺序,也是所有分析工具都通用的套路,使用起来自然相当顺手舒服。

dbb1c9b781c8b5cc7baa22118d4462d4.jpeg

而且Power BI可以彻底解决很多在Python或者Excel中让人烦透了的问题,比如:

做个图表再也不用写Python几十甚至上百行的代码,也不用调整N多了Excel图表参数。

做个表格直接星型连接,再也不用pandas来回join、也不用Excel迷之效果的VLOOKUP函数

做个分析,前期用Python处理数据,后期用Excel出图表,现在直接PowerBI搞定!

具体的这里不多说了,感兴趣的可以看看我的问答,里面专门有写到。

总之,老海认为:Power BI绝非只有可视化,相信随着版本迭代,未来足可代替Exce甚至是Python

OK,我们回过来继续对比Excel、SQL、PowerBI与Python

之前已经介绍了数据准备和导入,不了解的可自行翻看之前的文章。

今天涉及数据的查看与筛选,废话不多说直接上操作演示:

查看与筛选数据

当使用Excel时:

第一步:可以先观察一下数据情况,比如行数、列数,首行以及尾行,

可以使用shift + ctrl + 方向键 ↓ ,直接拉到底部查看

b29f52da8e8fbb218201f5d208f69fd5.jpeg

查看行数&列数

使用shift + ctrl + 方向键 ↑,来查看最前面的数据情况

f322cbb0f3a1999d21072a34f446876f.jpeg

查看最前面的数据

第二步:也可以选中整个列来查看特定字段的数据情况

2d8d42d6f4c302cc4bb5de73d08ca7d6.jpeg

特定字段

第三步:或者查看前10行数据

b9e75587b97da346ed1fb5b616562cfa.jpeg

前10行

第四步:查看最大或者最小的前10行数据

8e785cf8223644f7eec85e0aa8f4ce89.jpeg

最大前10行

第五步:查看不同数据列的空值情况

624f367be7c440cbbb3298797883c7cd.jpeg

第六步:查看符合某个条件的数据情况

b85d2cc16a54a49313ed2da52d2e8acf.jpeg

00bd124dcb09f11779f6686773ced052.jpeg

第7步:选择“筛选”中的“高级”,可以进行多条件筛选数据,比如同时满足天津市购买量大于2、武汉市购买量大于3

85021e805fb250f8991b33674d7c41bb.jpeg

第8步:高级筛选也可以实现多条件或关系筛选数据,即满足其中一个条件即可。

2c99d9ee80f637590ecfcbad6c3ed8a3.jpeg

第9步:查看特定列名去重的数据情况,可以选择“数据”中的“删除重复项”来实现

96eaafce6d23709dd81046d4122caf94.jpeg

51d731e6dc68d6965bff4e3dd421a4c4.jpeg

也可以通过“数据”中“筛选”下的“高级”来完成,此处注意勾选“不重复的记录”

0bc3ca29b59f2e870da95ef0d5c56a6b.jpeg

第10步:查看去重后数据的统计情况,此方法类似于python的value_couts

a281617a48bca1e27311272517df6838.jpeg

当使用SQL时:

第1步:查看数据情况

bbd19c589a62d752c1b0f40b2a03da95.jpeg

第2步:查看前10行数据

8499897e7224acbf5d14883a825de0a4.jpeg

第3步:查看某个条件的数据,比如查看门店城市为天津的数据

9ea3a07984f953628c5aa016a62f6915.jpeg

第4步:查看满足多个条件中任一个的数据,比如查看天津或者武汉的数据

30ae0440267454ece93e8aeb5146d061.jpeg

第5步:查看特定列名数据

15e2157de7ce6890d96a235abe219655.jpeg

第6步:查看特定列名的去重后数据的统计数量。比如门店城市共计多少

72b444196fa317ccffff260cdf27f1ac.jpeg

第7步:查看特定列名去重数据,查看去重后的具体城市名称

70d8b778af5b6c7b793f226df1eaa7ef.jpeg

第8步:查看非空值记录与空值记录

0e774188580485adfa402afbeb21f2be.jpeg

c633e0f63b2876b4d0d118e5045b9388.jpeg

当使用Power BI时:

第1步:查看数据基本情况,在“主页”下选择“转换数据”,进入PQ编辑器,查看数据。

5096cae52c495ffca940e4f3d7f5f8ef.jpeg

第2步:选中某个字段,在左下角可以查看非重复值的数量

0a97d14b0bb3e8483fe44aa0f59e6cda.jpeg

第3步:在PQ编辑器中,可以使用各类查看功能,比如保留最前几行、最后几行等等

4805510d1fdccc7e9881276e70daf5b1.jpeg

第4步:查看特定的字段列数据,点击“选择列”来筛选特定的字段列即可

0aa1480481debb9ab16a9c52562fc0eb.jpeg

第5步:查看符合某个条件的数据情况,可点击字段右侧的下拉箭头来筛选

1372c48d315cf0d11909315253febb62.jpeg

e5933ef57a176e6bb1eee442da67864f.jpeg

88fa22972fd06b96fd60ab212734a999.jpeg

第6步:查看去重后的数量统计情况,可以使用PQ编辑器中“转换”下的“统计信息”中的“对非重复值进行计数”

9f5fc155d22ccc1c2ed43c5255c178b6.jpeg

第7步:查看不同数据值的统计情况,点击字段右侧箭头,选择“分组依据”,设置分组字段以及计算的方式,即可完成分组统计。

83ee7dc8dd46488a988a0b6047e6d699.jpeg

a164fc32e0750672d0f62d97f206cadd.jpeg

92fd7aa5db736b521a9bbfb3b08e4dfe.jpeg

当使用Python时:

第1步:查看数据情况,主要看看是否存在乱码,以及数据的整体规模是否正确

d7e8bce361c337070862d77e5cf1b965.jpeg

第2步:查看数据前10行情况,主要查看不同字段下的数据格式情况,当然还可使用.dtypes查看当前字段的数据类型是否合理。

efac12c784a37de6c26a98da3df69aa7.jpeg

f1df3eed60e1c38f0a43edb72a76dbab.jpeg-wh_600x-s_309886112.jpeg

第3步:查看特定列的数据,一般建议使用loc、iloc进行切片操作。

259301c288b56981d96849f8c58c1055.jpeg

第4步:查看满足某个条件的数据,一般使用loc,配合条件筛选

b355658cd702001b6a7c92e7b39cd24c.jpeg

第5步:查看满足多个条件中任一条件的数据,除了isin,还可以使用或与非的关系组合

6a7e1f7271701532c79dfeebef12e90d.jpeg

第6步:查看是否存在空值,关于空值NULL,Nan的内容,可翻阅老海之前的文章

09810a2d8915ba33c73d9eafae488f85.jpeg

第7步:查看特定列去重后的数据,以及统计个数。

2ca15535e55e1ce315ee0fb7d6c8ab82.jpeg-wh_600x-s_1040909985.jpeg

5bedcf9e220ac6cd0c1f1352b7655b05.jpeg-wh_600x-s_662185317.jpeg

OK,限于篇幅和时间,本篇内容先到这里了。老海原本计划3篇完成,看来需要5篇才能全部写完。

欢迎关注后续内容,涉及更新与删除、分组聚合、多表关联、多表联合、排序与分组、存储与导出等操作。

【编辑推荐】

【责任编辑:未丽燕 TEL:(010)68476606】

点赞 0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值