这个Excel文档有33个sheet页,除了第一个sheet页的名称是“综合”外,其它每个sheet页的名称是中国每个省份的名称,每个省的sheet页中记录了这个省所有市以及区县的记录。总之,数据量虽然不是很多,但也不少,人工提取的话,这工作量可不少。每个sheet页的数据如下图所示:
飞哥看了文档,电话问了朋友的需求,大概归类了下面的主要需求:
1)去掉“综合”这个sheet页,其它的所有省份的数据都要统计; 2)每个sheet页中的第2列没有值的要去掉,空行要去掉; 3)个别的省份的名称在写SQL插入语句时要把省份的名称改一下; 4)其它的一些小细节;这类需求,用Python来处理很简单也很方便的,飞哥就开始使用xlrd写代码,写代码加简单的测试,半个小时就搞定了,后面细节的问题,飞哥又和朋友进行了几次沟通,进行了特殊行的筛选以及处理,然后再进行测试,大概又花了半个小时的时间。最后完美的完成了朋友的所托,当天晚上朋友就请飞哥在外面大吃了一顿。(福利:文末会有这次任务的精简版的代码哟,小伙伴可以作为读取excel文档的练习。)
Python处理Excel文档的第三方库主要有:xlrd,xlwt,openpyxl等。Xlrd用于读取操作,xlwt用于写入操作,openpyxl用于读写操作。对于日常工作中的Excel操作,这几个库随便用哪个都可以。
今天飞哥主要给小伙伴讲讲xlrd读取excel文档的使用。下一篇再介绍xlwt的写excel文档的使用。
01 应用场景Python简单易学,拥有丰富强大的数据分析和科学计算的第3方库。所以,Python在数据分析和科学计算方面,能够应用的场景和处理的问题非常广泛。Excel中擅长的公式计算和数据透视分析等功能,以及使用matlab进行科学计算的功能,都可以在Python中使用对应的第3方库进行处理,而且Python在处理超大数据量和复杂的处理逻辑时,更加方便灵活。因此,使用Python操作excel,不仅有丰富的第3方库支持,还能完成在Excel中不能完成的功能。
Python在Excel中的应用场景:1)工作表中的数据需要进行重复性的操作或是进行复杂的逻辑计算;2)提取数据库或其它文件中的数据进行处理后,保存到工作表中进行数据和图表分析展示等操作;