我的第一步是从数据清洗开始,先把刚才说的那个70M的Excel导成csv,去掉了其中不必要的格式、 样式、对象等。 然后我想统一一下各个数据的标准名称,刚才说了,由于经手的人太多,同一个数据,怎么表述的都有, 几十万的数据量,人工交叉比对的话显然是不现实的。(后来才知道了笛卡尔积这个词)
我第一步先使用了Excel自身的去重功能,将所有的供货商名称进行了一个去重,剩下了大概5000个左右的名称。
然后,作为一个懒人, 我肯定不会用人工去比对了。
Python有一个库,叫做fuzzywuzzy,用它来进行模糊匹配。
会输出一个0——100的数字, 数字越大代表这两个内容越相似。
所以我就写了一个循环,把这5000多个项目里面,匹配度超过70%以上的数据组都筛了出来,再去Excel里面手工替换(没办法,那时候还不会操作Excel)
然后整理了一下各个行列的位置, 这样我就有了一个相对准确的数据源。
后来思考了一下,把数据存在Excel里面不是个长久之计啊, 毕竟几十万数据呢,就想把数据导入到数据库里。大学时候考过计算机二级的Access(当然,虽然我考过,但是没考过……),就想导入Access,可是那个Python库没弄明白,硬是读不出来,就卡死了。
后来想到, 之前自己从网上下载的某某私服的一键端里,有个MySQL数据库的一键启动方式,试了试居然能用,就把那个MySQL程序整个拷出来、清干净,作为了我的数据库。(当时想学怎么自己配置MySQL来着,没研究明白……这个数据库也就是我们现在提供的MySQL数据库的前身, 当然了,我们现在提供的是重新制作的无毒的船新版本)
然后就是使用Navicat导入Excel,使用pymysql库进行读取,这样,咱也是趁数据库的人了~
罗伯特·清琦写的那本《富爸爸穷爸爸》提出过一个概念,当你实现财务自由以后, 你的财富积累就会走上良性循环的快车道,你的就会越来越容易提高被动收入。
同理,当你实现一部分的工作自动化以后,你就会走上一个“工作自由”的快车道,因为你有更多的时间能用来研究如何去更高效的完成余下的那堆工作, 然后,每天工作的时间就会越来越短。
为什么上文中我有那么多括号写的各种搞不定?因为没时间啊!
现在好了, 每天的工作时间已经被我砍了一半了,那么我就可以思考,如何解决各类的技术问题。我学会了Excel的各种库,比如xlrd、xlwt、xlsxwriter、openpyxl、xlwings、win32com,能根据自己的需要选择需要用的库;还学会了同属Office系列的python-docx和python-pptx, 开始尝试自动制作Word和PPT;学会了自动发邮件的stmp库、zmail库;学会了能操作微信发消息的itchat;学了爬虫、学了解压缩、学了调整图片大小、学了Word转pdf等等等等很多库或者功能。
随着学习,每天的工作时间越来越短……
现在,我每天的工作,只需要十分钟,最快记录四分钟,就能完成。
每天上班,第一件事, 优雅的运行一个py文件,一堆import后面,只有
就完成了日常工作,然后就是需要打印,手签,送各领导审阅的过程了。
一个保守的、传统的、几十年都不会起一丝波澜的国有企业,硬生生被我干出来了一个IT岗,升职加薪都已达成。
现在,我能极快的完成每天的工作,而后就是大片的学习思考的时间。
如今,我已经把数据库移到了一台淘汰下来的办公电脑上,又用另外一台热备,作为公共联网数据库;
我已经,用pyqt写了一个带gui的数据输出软件,所有同事都可以自由输出数据进行分析了;
我已经,用pandas、matplotlib写了一个自动生成数据分析图片的软件,再做月报、周报什么的汇报材料,不用再通过Excel手工作图了;
如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、全套PDF电子书
书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。
四、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!
最后祝你好运!!!
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!