人生苦短|数据开发中常用的python包

最新推荐文章于 2023-07-03 08:15:00 发布

Shaun_Xi

最新推荐文章于 2023-07-03 08:15:00 发布

阅读量325

点赞数

分类专栏：数据开发文章标签： python 数据分析大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39793644/article/details/124266345

版权

数据开发专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在数据开发的工作中，经常会遇到各种各样的问题，但往往又不是特别复杂的业务流程，如果用java处理起来总感觉显得有些笨重，这个时候我会更青睐python。

因为Python语言及其众多的扩展库所构成的开发环境，十分适合数据科学领域，且具有简洁性、易读性的特点，对新手较为友好。本文将针对几大类场景，汇总一下我目前使用过的python包，供各位参考（下方有xmind版本）。

一、数据采集场景

这里的数据采集主要是针对的爬虫采集页面的需求

Selenium 用于模拟浏览器
Scrapy 常用的爬虫框架
requests 网络请求

二、数据清洗场景

Beautiful Soup 靓汤，可以用于解析前面采集到的htlm文件
Json 用于解析json文件
docx 用于解析doc文件
openpyxl 用于解析xls文件

三、数据计算

Numpy 数组与矩阵运算
Pandas 处理数据的函数和方法
pyspark 用python调用spark引擎

四、数据库交互场景

pymysql 连接mysql数据库
py2neo 连接neo4j图数据库

五、数据可视化场景

Matplotlib 可以用命令行的形式绘制图形
Pyecharts 用于echarts图表的类库

六、机器学习场景

Scikit-learn 分类、回归、聚类、数据降维、模型选择和数据预处理

七、深度学习场景

PyTorch 继承了NumPy的众多优点，还支持GPUs计算
Tensorflow 由google推出，更倾向于工业应用

八、数据服务场景

webpy web开发框架
flask web开发框架
threading 处理多线程

ps：可以在公众号【大数据干货分享】对话框回复“python”，获取python数据分析电子书。

往期文章

--------------------

数据仓库|从事开发的第5个年头，当我第三次阅读《大数据之路》

数据产品|聊聊我的产品思维

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
人生苦短|数据开发中常用的python包

life is short
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。