📌Python常用库推荐
数据可视化
Matplotlib
Matplotlib 是一个高质量数据二维可视化的功能库,它支持几百种数据可视化展示型效果,已经成为该领域的事实标准库,不掌握它都不敢说懂数据处理!
https://github.com/matplotlib/matplotlib
SciPy
SciPy 提供了一组支持金融、数学、统计、信号处理等领域常用计算功能的函数,如三次样条插值、数值积分、图像处理等,搭配 Matplotlib 可视化工具包效果更好哦!
https://github.com/scipy/scipy
深度学习
TensorFlow
如果不知道 TensorFlow 这个词,一定很 OUT,它是 AlphaGo 背后的深度学习框架,支撑了 Google 背后大量的智能应用。Tensor 是张量,Flow 是流图,TensorFlow 就这样“简单的”构造张量流图开展深度学习计算。虽然专业应用已经不再直接使用这个框架,但作为入门学习者,从 TensorFlow 开始是非常好的选择。
https://github.com/TensorFlow/TensorFlow
Keras
Keras 是一个高层次的深度神经网络框架接口,它可以运行 TensorFlow、CNTK、Theano、MXNet 等具体框架,以用户友好、模块化和可扩展性著称。当别人还在 PK 具体框架之时,Keras 已经考虑打通框架之间的壁垒,这种抽象思维十分有益。学好一个具体框架后,Keras 则是“首选”的第二个。
https://github.com/keras-team/keras
PyTorch
PyTorch 是一个快速和灵活的深度学习框架,它有两个特点:快速,深度整合 GPU 硬件,计算更快速;灵活,可以动态生成张量(Tensor)流图,更适合演进式应用开发。再透露一点,PyTorch 是很多专业人士首选的深度学习框架。
https://github.com/pytorch/pytorch
PaddlePaddle
PaddlePaddle 是百度公司推出的深度学习框架,它提供了丰富的算法服务,易用、灵活、高效、可扩展,体现了百度的人工智能水平。作为深度学习框架的后起之秀,效果如何还要拭目以待,但非常值得期待。
https://github.com/PaddlePaddle/models
sklearn-theano
sklearn-theano 是一个建立在 Numpy, Scipy, Theano 和 Matplotlib 等 Python 库之上用于提取并抽象特征的库,严格意义上说,它并非是一个完整的深度学习框架,但对于提取特征,尤其是图像特征十分有用。
https://github.com/sklearn-theano/sklearn-theano
Web 框架
Django
Django 是一个高层次 Python Web 开发框架,特点是开发快速、代码较少、可扩展性强。Django 采用 MTV(Model、Template、View)模型组织资源,框架功能丰富,模板扩展选择最多。对于专业人员来说,Django 是当之无愧的 Python 排名第一的 Web 开发框架。
Flask
Flask 是一个 Python Web 开发的微框架,严格来说,它仅提供 Web 服务器支持,不提供全栈开发支持。然而,Flask 非常轻量、非常简单,基于它搭建 Web 系统都以分钟来计时,特别适合小微原型系统的开发。花少时间、产生可用系统,是非常划算的选择。
HTML和XML文件处理
Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。
自然语言应用
jieba
jieba 是一个中文分词组件,被称为最好的 Python 中文分词组件。支持三种分词模式:精确模式、全模式和搜索引擎模式,并且支持繁体分词和自定义词典。简单说,jieba是一个非常好用的中文工具,以分词起家,但功能比分词要强大很多。而且,全国计算机等级考试二级Python语言必考jieba库。
spaCy
spaCy 是一个 具有工业级强度Python 自然语言处理工具包。 spaCy 大量使用了 Cython 来提高相关模块的性能,并提供了预训练的统计模型和单词向量,拥有世界上最快的语法解析器,以及用于标记、解析和命名实体识别的卷积神经网络模型。目前支持30多种语言的符号化。
Gensim
Gensim 是一个用于话题空间建模、文档索引和大型语料库的相似性检索 Python第三方库。它专门为处理大型文本集合而设计,使用数据流和高效增量算法,有别于大多数只针对批处理和内存处理的功能库。
NLTK
NLTK是最出色的Python自然语言处理库。它不仅开发和维护优异,同时附带了大量的示例数据、语料库和预先训练好的模型。NLTK适合于语言学家、工程师、学生、教育者、研究人员和行业用户,可用于Windows、Mac OS X和Linux,最重要的是,NLTK是一个免费的、开源的、社区驱动的项目。
计算机视觉
OpenCV
OpenCV 的全称是:Open Source Computer Vision Library。是一个开源的跨平台的计算机视觉库。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成,同时提供了Python、Ruby、MATLAB 等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
网络爬虫
Requests
提到 Python 爬虫,就不得不提 requests 库。requests 库是一个基于 urllib 的用于 http 请求的模块,使用 python 语言编写,采⽤ Apache2 Licensed 开源协议。相比 urllib 库,requests 库更加的方便,是一个简单又强大的爬虫包。
Scrapy
Scrapy 是一个使用 Python 编写的,轻量级的,并可扩展的爬虫框架。和爬虫库不同的是,它是一个框架,任何人都可以根据需求方便的修改。Scrapy 使用 Twisted 异步网络库来处理网络通讯,可以很方便的完成网上数据的采集工作,它为我们完成了大量工作,而不需要自己费大力气去开发。
Pyspider
pyspider 是一个用 Python 实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。
Requests-HTML
requests-html 和 requests 一脉相承。requests-html 爬虫包基于现有的框架 PyQuery、Requests、lxml、beautifulsoup4 等库进行了二次封装,作者将 requests 的简单,便捷,强大又做了一次升级。
机器学习
scikit-learn
最受欢迎的机器学习Python库。
gym
用于开发和比较强化学习算法的工具包。
XGBoost
XGBoost是经过优化的分布式梯度增强库,旨在高效,灵活且可移植。
Vowpal Wabbit
Vowpal Wabbit是一个机器学习系统,它通过在线,哈希,减少,归约,学习搜索,主动和交互式学习等技术来推动机器学习的前沿。
整理不易🚀🚀,关注和收藏后拿走📌📌欢迎留言🧐👋📣
欢迎专注我的公众号AdaCoding 和 Github:AdaCoding123