python 数据分析 实际案例_python在实际工作中运用的案例

d1fdead1572ddab4dd7e5d082f80909a.gif

db953a59daa669a1f5aaebf813545078.png

求职丨真账实操丨税务筹划丨备考经验丨英语丨书法 大家好,我是刀哥。 今天周五下午,我把领导交代的任务完成后,本打算喝喝茶看看报,等着下班过周末,但没多久,领导又丢过来一个任务,并强调争取下班前搞完。

aaf3a43de5e9c90d6e119a34e96e450a.png

我看了一下任务,并不难,就是从扫描文件中取出需要的信息,并整理到excel表中,只是扫描文件比较多,有100多份,比较费时间。 这时,我第一时间想到的,就是借助python来做,这正是发挥它作用的时候。 时间比较紧,离下班只剩两个多小时,虽然之前做过从PDF文档中提取文字和表格,现在是要从JPG或PNG格式图片中提取文字信息,不同的格式,意味着需要用到不同的第三方库,得重新学。 于是我立马百度,搜索用python从图片中提取文字信息的教程,随便一搜,教程很多,浏览几篇后,锁定了自己觉得是比较详细并且能上手的一篇,按照其讲解步骤开始做。 先下载安装第三方库,下载中文语言包,然后写代码,因为公司网盘下载限速,下载花了一点时间,好在提取代码比较简单,如下。
1from PIL import Image
2import pytesseract
3
4image = Image.open(r'd:\E:工作\(银行用)其他应收款明细(1)\2020第一次扫描\2011付4.jpg') #打开图片
5text = pytesseract.image_to_string(image, lang='chi_sim') #图片转为字符串
6text = text.replace("“ ","").replace("。","") #去掉杂质,提纯
7print(text) #显示文字内容
以上只是取出了其中一份文档的文字信息,由于文档份数较多,于是我加了一个循环语句将所有文档路径都获取到,然后再依据上面代码逐一提取,获取所有文档路径代码如下。
 1import os
2
3def get_file(folder_path):  #获取同一文件夹下所有财务报表各自的文件路径
4    dir_file = os.listdir(folder_path)
5    print(dir_file)  
6    for path in dir_file:
7        whole_path = r'd:\E:工作\(银行用)其他应收款明细(1)\2020第一次扫描\{}'.format(path)
8        print(whole_path)
9        dir_jpg.append(whole_path)
10    return dir_jpg
11
12dir_jpg = []
13folder_path = r'd:\E:工作\(银行用)其他应收款明细(1)\2020第一次扫描' #此为文件夹路径
14dir_jpg = get_file(folder_path)
15print(dir_jpg)
至此,所有文档的文字信息都提取出来了, 但刀哥在 实 际 操作中,遇到了两个问题。 一是提取文字信息的准确度,这与下载的中文语言包有关系,中文语言包越高级,识别准确度就越高,而中文博大精深,往往比英文和数字更难提取,有些文档被识别提取出来的信息并不完整或比较凌乱,还需要手动操作。 二是没有用代码实现将提取出的文字信息自动写入excel文档,一方面是时间不够,刀哥要急着交作业,另一方面是水平还不够,还得学习研究如何去实现,希望有空了再来好好研究。 最后,靠代码实现+手动操作,双管齐下,刀哥在下班之前交出了作业,因为是公司内部信息,就不截图展示了。

c4bf7146d6a655fb6890c7ed6c5e647f.png

刀哥分享这个案例,想说的是,python是能运用到实际工作中的,对工作是有帮助的,学得越好,掌握得越好,对工作的帮助就越明显。 如果中文语言包识别度再高些,并且用代码实现自动写入,可能这个任务,不用半小时就能完成,可以省下大量的时间喝茶看报了。 - END - b21ff21e450e1368ef4f41196bb195dd.png b21ff21e450e1368ef4f41196bb195dd.png

一个会写代码的注册会计师,

请关注刀哥,看用代码能把财会玩出什么新花样!

有问题欢迎来交流,如果你喜欢刀哥的文章,请分享转发

也请为刀哥点个在看,点击右上角设为星标,更多精彩内容不错过。


我对你心跳不止,你也关注我一下呗811a43468daaf3a7bb409accf3bb977f.png

6e645b443f890293a7a55e49bd8198f2.gif

本文部分内容来自网络,如有侵权请联系删除。

e6291646947709f18e38e244debd6dba.gif

  • 获取国内所有上市公司信息,仅需5行代码!!

  • 财务人员该如何融入业务?

  • 所有的优秀背后,都是苦行僧般的自律,学习、考试尤其需要如此,它是一种潜心修行!

  • 最新消息!2021年初级会计报名推迟!财政厅正式回应!

  • 取出PDF文档中的文字和表格,不到30行代码轻松搞定!

c590bf53f43028bc3135afea008dc9af.gif 点击 领取会计类考试网校资料支持刀哥,点个【在看】 8108109e5e63fb7e57409e14e3d60689.gif
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值