浅谈利用python进行数据分析(二)

之前,小编一起带大家入了Python的坑,讲解了Python基础知识以及数据处理的常用语句(详见《浅谈利用python进行数据分析(一)》,相信大家对Python有了初步的认识。

本文将继续为同学们介绍一些小编会用到的Python数据分析语句,主要是一些工作中可以提高效率,减少人工成本的语句。简单点说:就是可以偷点懒把Python利用到极致~

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

01

合并文件

小编认为,合并文件在工作中很有用,尤其是做审计的同学们。小编就曾经遇到过这个情况,客户发来几百个EXCEL,需要提取对应的客户名称及收入金额,当时这项工作干了整整一天。

为了节约时间,小编学习了合并文件语句,基本理念就是:利用循环语句,依次读取对应的文件,并将其“放到”一个文件中。

很直观的优点是,一般不到一分钟便可完成合并操作,再利用简单的Python语句便可完成一些数据处理及分析工作,这样可以节约一天的工作时间~即使文件比较大,最多也是几分钟而已。此外,准确率也不会因为人工失误而出错。

· 1.合并excel

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

小编将按照执行语句顺序,为大家一一讲解,具体如下:

1) 获取所有需要合并的文件名:利用OS模块的listdir函数,将文件名称以列表的形式存储到files中。

*注意* 地址路径这里只到需要合并的文件根目录,不要再下一层了

2) 遍历并合并所有EXCEL数据:首先定义一个空列表,即dataframe(简称df);遍历需要合并的文件夹所有EXCEL中的shee1页,并将遍历到的所有数据放到df中。

*注意* 循环中的i表示为有几个文件;这里只会遍历sheet名字为sheet1的表单;目前只是一个列表,还不是常见的EXCEL样式(如下图)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3) 合并列表变成二维数据格式:利用pandas模块的concat函数将列表合并,导出为excel格式。

*注意* 该函数axis默认为0表示在水平方向进行连接(首尾相接);1表示在垂直方向(横向表拼接,行对齐)进行连接(示例如下图);该函数默认是并集合并(outer),也可交集合并(inner)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

· 2.合并txt&csv

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

小编将按照执行语句顺序,为大家一一讲解,具体如下:

1) 查看需要合并的文件数量:利用glob模块的glob函数查看共计几个文件数,并存储为列表形式,同时print输出文件数量。

*注意* 需要把文件放到与该py程序同一文件夹下,因为这里是相对路径;print的%后面表示将列表txt_list的长度作为输出对象打印出。

2) 循环并合并所有文件,并导出为CSV格式:利用for循环,先依次遍历并读取需要合并的文件,最后将合并数据写入result文件,并print输出合并完毕

*注意* 没有什么可注意的~~

02

删除空行与去重

在做大量数据分析时,是否存在无效数据、是否存在乱码、是否存在空行、是否存在重复项等一直是首要考虑的问题。

肯定有人会说,Excel中有去除空行和去重的办法,步骤也很简单,何必要用Python呢。

小编想说:的确很简单,但步骤还是比Python多且需要人工操作,一个不小心手滑了,就白整了。而且当excel数据量太大时,运行速度也会受到较大影响。因此,学会利用Python去除空行和去重,也是十分有必要的。

去除空行和去重的核心思路都是利用drop函数,具体实现代码如下:

· 1.删除空行

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

整体思路是:利用dropna函数,删除该行全部字段均为空的行。

*注意* 这里默认axis为0,(即行维度);当how=”any”时表示只要该行某个字段为空,则删除该行,而不是整行为空,希望大家注意哈。

· 2. 去重

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

整体思路是:利用drop_duplicates函数判断是否有重复,如有重复则去重操作。

*注意* 这里subset表示利用姓名判断是否重复;keep=False表示为去除所有重复行,keep=first表示保留第一个重复行,keep=last表示保留最后一个重复行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好了,初步的数据分析语句就介绍到这里。如果同学们有需要,只要文件路径正确,以上语句均可直接使用~~希望可以帮助到大家。

点击下方安全链接前往获取

CSDN大礼包:《Python入门&进阶学习资源包》免费分享

👉Python实战案例👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

👉Python书籍和视频合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

👉Python副业创收路线👈

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些资料都是非常不错的,朋友们如果有需要《Python学习路线&学习资料》,点击下方安全链接前往获取

CSDN大礼包:《Python入门&进阶学习资源包》免费分享

本文转自网络,如有侵权,请联系删除。

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值