C++
计算机视觉
- CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库
- OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。
通用机器学习
Java
自然语言处理
- CoreNLP—斯坦福大学的CoreNLP提供一系列的自然语言处理工具,输入原始英语文本,可以给出单词的基本形式(下面Stanford开头的几个工具都包含其中)。
- Stanford Parser—一个自然语言解析器。
- Stanford POS Tagger —一个词性分类器。
- Stanford Name Entity Recognizer—Java实现的名称识别器
- Stanford Word Segmenter—分词器,很多NLP工作中都要用到的标准预处理步骤。
- Tregex, Tsurgeon and Semgrex —用来在树状数据结构中进行模式匹配,基于树关系以及节点匹配的正则表达式(名字是“tree regular expressions”的缩写)。
- Stanford Phrasal:最新的基于统计短语的机器翻译系统,java编写
- Stanford Tokens Regex—用以定义文本模式的框架。
- Stanford Temporal Tagger—SUTime是一个识别并标准化时间表达式的库。
- Stanford SPIED—在种子集上使用模式,以迭代方式从无标签文本中学习字符实体
- Stanford Topic Modeling Toolbox —为社会科学家及其他希望分析数据集的人员提供的主题建模工具。
- Twitter Text Java—Java实现的推特文本处理库
- MALLET -—基于Java的统计自然语言处理、文档分类、聚类、主题建模、信息提取以及其他机器学习文本应用包。
- OpenNLP—处理自然语言文本的机器学习工具包。
- LingPipe —使用计算机语言学处理文本的工具包。
通用机器学习
- MLlib in Apache Spark—Spark中的分布式机器学习程序库
- Mahout —分布式的机器学习库
- Stanford Classifier —斯坦福大学的分类器
- Weka—Weka是数据挖掘方面的机器学习算法集。
- ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。
数据分析/数据可视化
Matlab
计算机视觉
- Contourlets —实现轮廓波变换及其使用函数的MATLAB源代码
- Shearlets—剪切波变换的MATLAB源码
- Curvelets—Curvelet变换的MATLAB源码(Curvelet变换是对小波变换向更高维的推广,用来在不同尺度角度表示图像。)
- Bandlets—Bandlets变换的MATLAB源码
自然语言处理
- NLP —一个Matlab的NLP库
通用机器学习
- Training a deep autoencoder or a classifier on MNIST digits—在MNIST字符数据集上训练一个深度的autoencoder或分类器[深度学习]。
- t-Distributed Stochastic Neighbor Embedding —获奖的降维技术,特别适合于高维数据集的可视化
- Spider—Matlab机器学习的完整面向对象环境。
- LibSVM —支持向量机程序库
- LibLinear —大型线性分类程序库
- Machine Learning Module —M. A .Girolami教授的机器学习课程,包括PDF,讲义及代码。
- Caffe—考虑了代码清洁、可读性及速度的深度学习框架
- Pattern Recognition Toolbox —Matlab中的模式识别工具包,完全面向对象
数据分析/数据可视化
- matlab_gbl—处理图像的Matlab包
- gamic—图像算法纯Matlab高效实现,对MatlabBGL的mex函数是个补充。
Python
计算机视觉
- SimpleCV—开源的计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库。使用Python编写,可以在Mac、Windows以及Ubuntu上运行。
自然语言处理
- NLTK —一个领先的平台,用来编写处理人类语言数据的Python程序
- Pattern—Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。
- TextBlob—为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。
- jieba—中文断词工具。
- SnowNLP —中文文本处理库。
- loso—另一个中文断词库。
- genius —基于条件随机域的中文断词库。
- nut —自然语言理解工具包。
通用机器学习
- Bayesian Methods for Hackers —Python语言概率规划的电子书
- MLlib in Apache Spark—Spark下的分布式机器学习库。
- scikit-learn—基于SciPy的机器学习模块
- graphlab-create —包含多种机器学习模块的库(回归,聚类,推荐系统,图分析等),基于可以磁盘存储的DataFrame。
- BigML—连接外部服务器的库。
- pattern—Python的web挖掘模块
- NuPIC—Numenta公司的智能计算平台。
- Pylearn2—基于Theano的机器学习库。
- hebel —Python编写的使用GPU加速的深度学习库。
- gensim—主题建模工具。
- PyBrain—另一个机器学习库。
- Crab —可扩展的、快速推荐引擎。
- python-recsys —Python实现的推荐系统。
- thinking bayes—关于贝叶斯分析的书籍
- Restricted Boltzmann Machines —Python实现的受限波尔兹曼机。[深度学习]。
- Bolt —在线学习工具箱。
- CoverTree —cover tree的Python实现,scipy.spatial.kdtree便捷的替代。
- nilearn—Python实现的神经影像学机器学习库。
- Shogun—机器学习工具箱。
- Pyevolve —遗传算法框架。
- Caffe —考虑了代码清洁、可读性及速度的深度学习框架
- breze—深度及递归神经网络的程序库,基于Theano。
数据分析/数据可视化
- SciPy —基于Python的数学、科学、工程开源软件生态系统。
- NumPy—Python科学计算基础包。
- Numba —Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用
- NetworkX —为复杂网络使用的高效软件。
- Pandas—这个库提供了高性能、易用的数据结构及数据分析工具。
- Open Mining—Python中的商业智能工具(Pandas web接口)。
- PyMC —MCMC采样工具包。
- zipline—Python的算法交易库。
- PyDy—全名Python Dynamics,协助基于NumPy, SciPy, IPython以及 matplotlib的动态建模工作流。
- SymPy —符号数学Python库。
- statsmodels—Python的统计建模及计量经济学库。
- astropy —Python天文学程序库,社区协作编写
- matplotlib —Python的2D绘图库。
- bokeh—Python的交互式Web绘图库。
- plotly —Python and matplotlib的协作web绘图库。
- vincent—将Python数据结构转换为Vega可视化语法。
- d3py—Python的绘图库,基于D3.js。
- ggplot —和R语言里的ggplot2提供同样的API。
- Kartograph.py—Python中渲染SVG图的库,效果漂亮。
- pygal—Python下的SVG图表生成器。
- pycascading