之前,小编一起带大家入了Python的坑,讲解了Python基础知识以及数据处理的常用语句(详见《浅谈利用python进行数据分析(一)》,相信大家对Python有了初步的认识。
本文将继续为同学们介绍一些小编会用到的Python数据分析语句,主要是一些工作中可以提高效率,减少人工成本的语句。简单点说:就是可以偷点懒把Python利用到极致~
01
合并文件
小编认为,合并文件在工作中很有用,尤其是做审计的同学们。小编就曾经遇到过这个情况,客户发来几百个EXCEL,需要提取对应的客户名称及收入金额,当时这项工作干了整整一天。
为了节约时间,小编学习了合并文件语句,基本理念就是:利用循环语句,依次读取对应的文件,并将其“放到”一个文件中。
很直观的优点是,一般不到一分钟便可完成合并操作,再利用简单的Python语句便可完成一些数据处理及分析工作,这样可以节约一天的工作时间~即使文件比较大,最多也是几分钟而已。此外,准确率也不会因为人工失误而出错。
· 1.合并excel
小编将按照执行语句顺序,为大家一一讲解,具体如下:
1) 获取所有需要合并的文件名:利用OS模块的listdir函数,将文件名称以列表的形式存储到files中。
*注意* 地址路径这里只到需要合并的文件根目录,不要再下一层了
2) 遍历并合并所有EXCEL数据:首先定义一个空列表,即dataframe(简称df);遍历需要合并的文件夹所有EXCEL中的shee1页,并将遍历到的所有数据放到df中。
*注意* 循环中的i表示为有几个文件;这里只会遍历sheet名字为sheet1的表单;目前只是一个列表,还不是常见的EXCEL样式(如下图)
3) 合并列表变成二维数据格式:利用pandas模块的concat函数将列表合并,导出为excel格式。
*注意* 该函数axis默认为0表示在水平方向进行连接(首尾相接);1表示在垂直方向(横向表拼接,行对齐)进行连接(示例如下图);该函数默认是并集合并(outer),也可交集合并(inner)。
· 2.合并txt&csv
小编将按照执行语句顺序,为大家一一讲解,具体如下:
1) 查看需要合并的文件数量:利用glob模块的glob函数查看共计几个文件数,并存储为列表形式,同时print输出文件数量。
*注意* 需要把文件放到与该py程序同一文件夹下,因为这里是相对路径;print的%后面表示将列表txt_list的长度作为输出对象打印出。
2) 循环并合并所有文件,并导出为CSV格式:利用for循环,先依次遍历并读取需要合并的文件,最后将合并数据写入result文件,并print输出合并完毕
*注意* 没有什么可注意的~~
02
删除空行与去重
在做大量数据分析时,是否存在无效数据、是否存在乱码、是否存在空行、是否存在重复项等一直是首要考虑的问题。
肯定有人会说,Excel中有去除空行和去重的办法,步骤也很简单,何必要用Python呢。
小编想说:的确很简单,但步骤还是比Python多且需要人工操作,一个不小心手滑了,就白整了。而且当excel数据量太大时,运行速度也会受到较大影响。因此,学会利用Python去除空行和去重,也是十分有必要的。
去除空行和去重的核心思路都是利用drop函数,具体实现代码如下:
· 1.删除空行
整体思路是:利用dropna函数,删除该行全部字段均为空的行。
*注意* 这里默认axis为0,(即行维度);当how=”any”时表示只要该行某个字段为空,则删除该行,而不是整行为空,希望大家注意哈。
· 2. 去重
整体思路是:利用drop_duplicates函数判断是否有重复,如有重复则去重操作。
*注意* 这里subset表示利用姓名判断是否重复;keep=False表示为去除所有重复行,keep=first表示保留第一个重复行,keep=last表示保留最后一个重复行。
好了,初步的数据分析语句就介绍到这里。如果同学们有需要,只要文件路径正确,以上语句均可直接使用~~希望可以帮助到大家。
点击下方安全链接前往获取
CSDN大礼包:《Python入门&进阶学习资源包》免费分享
👉Python实战案例👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉Python书籍和视频合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉Python副业创收路线👈
这些资料都是非常不错的,朋友们如果有需要《Python学习路线&学习资料》,点击下方安全链接前往获取
CSDN大礼包:《Python入门&进阶学习资源包》免费分享
本文转自网络,如有侵权,请联系删除。