人生苦短|数据开发中常用的python包

    

    在数据开发的工作中,经常会遇到各种各样的问题,但往往又不是特别复杂的业务流程,如果用java处理起来总感觉显得有些笨重,这个时候我会更青睐python。

    因为Python语言及其众多的扩展库所构成的开发环境,十分适合数据科学领域,且具有简洁性、易读性的特点,对新手较为友好。本文将针对几大类场景,汇总一下我目前使用过的python包,供各位参考(下方有xmind版本)。

一、数据采集场景

这里的数据采集主要是针对的爬虫采集页面的需求

  1. Selenium 用于模拟浏览器

  2. Scrapy 常用的爬虫框架

  3. requests 网络请求

二、数据清洗场景

  1. Beautiful Soup 靓汤,可以用于解析前面采集到的htlm文件

  2. Json 用于解析json文件

  3. docx 用于解析doc文件

  4. openpyxl 用于解析xls文件

三、数据计算

  1. Numpy 数组与矩阵运算

  2. Pandas 处理数据的函数和方法

  3. pyspark 用python调用spark引擎

四、数据库交互场景

  1. pymysql 连接mysql数据库

  2. py2neo 连接neo4j图数据库

五、数据可视化场景

  1. Matplotlib 可以用命令行的形式绘制图形

  2. Pyecharts 用于echarts图表的类库

六、机器学习场景

  1. Scikit-learn 分类、回归、聚类、数据降维、模型选择和数据预处理

七、深度学习场景

  1. PyTorch 继承了NumPy的众多优点,还支持GPUs计算

  2. Tensorflow 由google推出,更倾向于工业应用

八、数据服务场景

  1. webpy web开发框架

  2. flask web开发框架

  3. threading 处理多线程

ps:可以在公众号【大数据干货分享】对话框回复“python”,获取python数据分析电子书。

往期文章

--------------------

数据仓库|从事开发的第5个年头,当我第三次阅读《大数据之路》

数据产品|聊聊我的产品思维

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值