数据科学家必备的python 扩展库

核心库
Numpy - 做科学计算最基础的库。针对n维向量及Numpy类型数组,Numpy提供了多种便于提升运算速度的功能
http://www.numpy.org/

SciPy - Scipy包含了做线性代数、优化、集合与统计等的模块,在Numpy的基础上实现科学计算功能
https://www.scipy.org/

Pandas - Pandas是一个能快速简单实现数据操作、整合及可视化的工具库
https://pandas.pydata.org/

可视化
Matplotlib - Matplotlib的设计理念是能够用轻松简单的方式生成强大的可视化效果,然而它是一个低端库,相比于其他高端的库,需要去写更多的代码来实现可视化效果。
https://matplotlib.org/

Seaborn - Seaborn关注于统计模型的可视化,可以提供热力图等多种效果去描绘数据的整体分布情况。
Bokeh - Bokeh的特点是在web端实现d3.js的交互可视化,并且独立于matplotlib。
Plotly - Plotly是一个基于web的可视化工具箱,在plotly网站上有许多强大的图表,可以通过API的方式实现调用。
机器学习
Scikit-Learn - 它有着高质量的代码和文档,易于上手,是用Python实现机器学习的业界标准
http://scikit-learn.org/stable/

深度学习
Theano - 一个实现GPU和CPU使用的优化的开源库
TensorFlow - 一个由Google打造的做机器学习中图像计算的开源库
Keras - 一个实现在高级界面上建立神经网络的开源库
自然语言处理
NLTK - Natural Language Toolkit的缩写,用于自然语言处理的研究
Gensim - 它用于处理原始的非结构化数字文本,可以调用HDP, LSA, LDA, tf-idf, random projection, word2vec and document2vec等算法。
数据挖掘、统计
Scrapy - 一个用Python实现的做爬虫程序的库
Statsmodels - 一个基于Python的通过统计模型做数据探索的库,包含的模块有:统计描述、线性回归模型、广义线性模型、离散选择模型、稳健线性模型、时间序列分析以及多元回归分析。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值