在数据开发的工作中,经常会遇到各种各样的问题,但往往又不是特别复杂的业务流程,如果用java处理起来总感觉显得有些笨重,这个时候我会更青睐python。
因为Python语言及其众多的扩展库所构成的开发环境,十分适合数据科学领域,且具有简洁性、易读性的特点,对新手较为友好。本文将针对几大类场景,汇总一下我目前使用过的python包,供各位参考(下方有xmind版本)。
一、数据采集场景
这里的数据采集主要是针对的爬虫采集页面的需求
-
Selenium 用于模拟浏览器
-
Scrapy 常用的爬虫框架
-
requests 网络请求
二、数据清洗场景
-
Beautiful Soup 靓汤,可以用于解析前面采集到的htlm文件
-
Json 用于解析json文件
-
docx 用于解析doc文件
-
openpyxl 用于解析xls文件
三、数据计算
-
Numpy 数组与矩阵运算
-
Pandas 处理数据的函数和方法
-
pyspark 用python调用spark引擎
四、数据库交互场景
-
pymysql 连接mysql数据库
-
py2neo 连接neo4j图数据库
五、数据可视化场景
-
Matplotlib 可以用命令行的形式绘制图形
-
Pyecharts 用于echarts图表的类库
六、机器学习场景
-
Scikit-learn 分类、回归、聚类、数据降维、模型选择和数据预处理
七、深度学习场景
-
PyTorch 继承了NumPy的众多优点,还支持GPUs计算
-
Tensorflow 由google推出,更倾向于工业应用
八、数据服务场景
-
webpy web开发框架
-
flask web开发框架
-
threading 处理多线程
ps:可以在公众号【大数据干货分享】对话框回复“python”,获取python数据分析电子书。
往期文章
--------------------