【详解】Python数据分析第三方库分析

Python数据分析第三方库分析


使用原因:Python可用于数据分析,但其单纯依赖Python本身自带的库进行数据分析还是具有一定的局限性的,需要安装第三方扩展库来增强分析和挖掘能力。

Python数据分析第三方扩展库NumpyPandasSciPyMatplotlibScikit-LearnKerasGensimScrapy

@常用库下载地址

1 网络爬虫
​requestshttps://pypi.org/project/requests/ 简洁且简单的处理HTTP请求的第三方库
​scrapyhttps://scrapy.org/ 快速、高层次的Web获取框架

2 数据分析
​numpyhttp://www.numpy.org/ 开源数值计算扩展第三方库
scipyhttps://pypi.org/project/scipy/ 专为科学以及工程计算的第三方库
pandashttp://pandas.pydata.org/ 可高效地操作大型数据集的第三方库

3 文本处理
pdfminerhttps://pypi.org/project/pdfminer/ 从PDF文档中提取各类信息的第三方库
openpyxlhttps://pypi.org/project/openpyxl/ 处理Microsoft Excel文档的Python第三方库
python-docxhttps://pypi.org/project/python-docx/ 处理Microsoft Word文档的Python第三方库
beautifulsoup4https://pypi.org/project/beautifulsoup4/ 从HTML和XML文件中解析出数据的第三方库

4 用户图形界面
​PyQt5https://pypi.org/project/PyQt5/ 成熟的商业级GUI第三方库
wxpythonhttps://pypi.org/project/wxPython/ 优秀的GUI图形库
​pygtkhttps://pypi.org/project/PyGTK/ 轻松创建具有图形用户界面程序的第三方库

5 机器学习
​Scikit-learnhttps://scikit-learn.org/stable/ 简单且高效的数据挖掘和数据分析工具
​Tensorflowhttps://pypi.org/project/tensorflow/ 人工智能学习系统
Theanohttp://deeplearning.net/software/theano/ 执行深度学习中大规模神经网络算法的运算

6 Web开发
​Djangohttps://pypi.org/project/Django/ 最流行的开源Web应用框架
​Pyramidhttps://pypi.org/project/pyramid/ 通用、开源的Python Web应用程序开发框架
​Flaskhttps://pypi.org/project/Flask/ 轻量级Web应用框架

7 游戏开发
​Pygamehttps://www.python.org/ 面向游戏开发入门的Python第三方库
​Panda3Dhttp://www.panda3d.org/ 开源、跨平台的3D渲染和游戏开发库
​cocos2dhttps://pypi.org/project/cocos2d/ 构建2D游戏和图形界面交互式应用的框架

8 数据可视化
Matplotlibhttps://matplotlib.org/ 提供数据绘图功能的第三方库,主要进行二维图表数据展示
TVTKhttps://www.lfd.uci.edu/~gohlke/pythonlibs/ 图形应用函数库,是专业可编程的三维可视化工具
mayavihttps://pypi.org/project/mayavi/ 方便实用的可视化软件

1 Numpy

  • 提供数组支持以及相应的高效处理函数,是Python数据分析的基础,也是SciPy、Pandas等数据处理和科学计算库最基本的函数功能库。

2 Matplotlib

  • 强大的数据可视化工具和作图库,是主要用于绘制数据图表的Python库,提供了绘制各类可视化图形的命令字库、简单的接口,可以方便用户轻松掌握图形的格式,绘制各类可视化图形。
  • 基于Numpy的一套Python包,这个包提供了吩咐的数据绘图工具,主要用于绘制一些统计图形。
  • 有一套允许定制各种属性的默认设置,可以控制Matplotlib中的每一个默认属性:图像大小、每英寸点数、线宽、色彩和样式、子图、坐标轴、网格属性、文字和文字属性。

3 Pandas

  • 最初被用作金融数据分析工具而开发出来,因此Pandas为时间序列分析提供了很好的支持
  • 为了解决数据分析任务而创建的,Pandas纳入了大量的库和一些标准的数据模型,提供了高效的操作大型数据集所需要的工具。
  • 带有坐标轴的数据结构,支持自动或明确的数据对齐。这能防止由于数据结构没有对齐,以及处理不同来源、采用不同索引的数据而产生的常见错误。

4 SciPy

  • 一组专门解决科学计算中各种标准问题域的包的集合,包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算等
  • 包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等。Scipy依赖于Numpy,并提供许多对用户友好的和有效的数值例程,如数值积分和优化。

5 Scikit-Learn

  • Python常用的机器学习工具包,提供了完善的机器学习工具箱,支持数据预处理、分类、回归、聚类、预测和模型分析等强大机器学习库,其依赖于Numpy、Scipy和Matplotlib等。
  • 主要功能分为六个部分,分类、回归、聚类、数据降维、模型选择、数据预处理。
  • 自带一些经典的数据集,比如用于分类的iris和digits数据集,还有用于回归分析的boston house prices数据集。该数据集是一种字典结构,数据存储在.data成员中,输出标签存储在.target成员中。
  • Scikit-Learn还有一些库,比如:用于自然语言处理的Nltk、用于网站数据抓取的Scrappy、用于网络挖掘的Pattern、用于深度学习的Theano等。

6 Keras

  • 深度学习库,人工神经网络和深度学习模型,基于Theano之上,依赖于Numpy和Scipy,利用它可以搭建普通的神经网络和各种深度学习模型,如语言处理、图像识别、自编码器、循环神经网络、递归审计网络、卷积神经网络等。

7 Gensim

  • 用来做文本主题模型的库,常用于处理语言方面的任务,支持TF-IDF、LSA、LDA和Word2Vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算、信息检索等一些常用任务的API接口。

8 Scrapy

  • 专门为爬虫而生的工具,具有URL读取、HTML解析、存储数据等功能,可以使用Twisted异步网络库来处理网络通讯,架构清晰,且包含了各种中间件接口,可以灵活的完成各种需求。

总结

Python能直接处理数据,而Pandas几乎可以像SQL那样对数据进行控制。Matplotlib能够对数据和记过进行可视化,快速理解数据。Scikit-Learn提供了机器学习算法的支持,Theano提供了升读学习框架(还可以使用CPU加速)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值