当一个数据分析师用Python时,到底是用什么呢。
背景: 帝国理工商业分析硕士, 课程结束后无缝连接直接伦敦金融城实习,四个月后拿到return offer 成为permenant employee.
超级常用的package, 我两年来几乎每个项目都用到的:
🍰pandas - 创建Dataframe然后开始各种花式manipulate数据集,最常用 df.loc/ df.iloc来提取某些符合要求的数据子集,pd.to_datetime也很常用,拿来处理日期相关的数据
🍰numpy - 经常使用的一些function来做运算。 特别是np.busday_count() 非常有用,拿来算两个日期间有多少个business day
🍰datetime - 处理日期小能手
🍰xlrd - 读取excel的package
🍰pyodbc - 从Python连接SQL database. 我是Python星人,不到万不得已不用SQL,所以这就很有用了
🍰datautil - 时区转换小能手
🍰nltk - text 处理小能手,比如说去掉stop words, tokenize句子之类的
🍰os - 读取文件夹中的文件
🍰string - 处理文字串的pakage, 我经常调用用里面的标点符号集
不常用但是一旦项目需要就爆炸好用的package:
🍰fuzzy wuzzy - 做字符模糊匹配非常有用的library,我做了两个大项目都主要用到这个library
🍰camelot - 从PDF提取其中的表格数据。很多时候数据不是完美又方便地保存在一个excel/csv/txt 文件里面,而是需要从pdf上面scrape下来。 这个是我用过最好用且发挥稳定的。
对在英国求职面试感兴趣的集美们可以看看我别的笔记哦, 都放在[燕子伦敦搬砖记]里了,干货满满。 如果有感兴趣的话题或者问题也可以评论哦~下次见!