Python作为人工智能和数据分析第一语言,使得Python程序员成了当前人才市场的“抢手货”,工资待遇也水涨船高。所以不管是应届生还是转行的人都选择了学习Python!
Python是门神奇有魅力的语言,确实简单易用,能证明这一点的就是:很多人只要学完了Python基础,就能参与真实项目开发,90%的代码甚至不用查资料,利用简单的if/for/while/函数就全部搞定了。
然而随着项目的需求变得复杂,很多人不知不觉的在重复的造轮子。比如多数据的关联join、汇总统计、结果存入excel文件等等,尤其是对于多数据源(来自csv/txt/mysql)的关联join操作,自己从零开始用Python实现,比如把小文件加载到内存dict,遍历大文件去做dict查询实现JOIN,代码写起来刷刷的确实很爽。
然而有一天,当我发现这样多数据关联的需求,在spark、pandas等类库中就是一个简单现成的函数的时候,我非常激动,感叹为什么没有早点知道这些现成的技术。
Python的类库真的很多,其中成体系的可以称之为“数据科学技术栈”,这么多的类库即使不都学一下,也要了解它们分别是做什么的,这样将来遇到类似的需求的时候不用从头自己实现。
1、Python爬虫
代表技术为requests/beautiful