机器学习资源：根据不同语言类型和应用领域收集的各类工具库

C

通用机器学习

推荐者 - 一个产品推荐的C语言库，利用了协同过滤。

计算机视觉

CCV - 基于C / Cached /核心计算机视觉库，是一个现代化的计算机视觉库。
VLFeat - VLFeat是开源的计算机视觉算法库，有Matlab工具箱。

C ++

计算机视觉

OpenCV - 最常用的视觉库。有C ++，C，Python以及Java接口），支持Windows，Linux，Android和Mac OS。
DLib - DLib有C ++和Python脸部识别和物体检测接口。
EBLearn - Eblearn是一个面向对象的C ++库，实现了各种机器学习模型。
VIGRA - VIGRA是一个跨平台的机器视觉和机器学习库，可以处理任意维度的数据，有Python接口。

通用机器学习

MLPack - 可拓展的C ++机器学习库。
DLib - 设计为方便嵌入到其他系统中。
encog-CPP
鲨鱼
Vowpal Wabbit（大众） - 快速的核心学习系统。
sofia-ml - 快速增量算法套件。
Shogun - 幕府将军机器学习工具箱
Caffe - 深度学习框架，结构清晰，可读性好，速度快。
CXXNET - 精简的框架，核心代码不到1000行。
XGBoost - 为并行计算优化过的梯度提升库。
CUDA - 这是卷积的快速C ++ / CUDA实现[DEEP LEARNING]
Stan - 一种概率编程语言，用Hamiltonian Monte Carlo采样实现完整的贝叶斯统计推断
BanditLib - 一个简单的多臂强盗图书馆。
Timbl - 实现了多个基于内存的算法，其中IB1-IG（KNN分类算法）和IGTree（决策树）在NLP中广泛应用。

自然语言处理

麻省理工学院信息提取工具包 - C，C ++和Python工具，用来命名实体识别和关系抽取。
CRF ++ - 条件随机场的开源实现，可以用作分词，词性标注等。
CRFsuite - CRFsuite是条件随机场的实现，可以用作词性标注等。
BLLIP Parser - 即Charniak-Johnson解析器。
colibri-core - 一组C ++库，命令行工具以及Python绑定，高效实现了n-gram和skipgrams。
ucto - 多语言tokenizer，支持面向Unicode的正则表达式，支持FoLiA格式。
libfolia - 用于FoLiA格式的 C ++库
MeTA - MeTA：ModErn Text Analysis从巨量文本中挖掘数据。

机器翻译

语音识别

Kaldi - Kaldi是一个C ++工具，以Apache许可证V2.0发布.Kaldi适用于语音识别的研究。

序列分析

ToPS - 这是一个面向对象的框架，它有助于在用户定义的字母表中整合序列的概率模型。

Java

自然语言处理

Cortical.io - Retina：此API执行复杂的NLP操作（消歧义，分类，流文本过滤等），快速，直观如同大脑一般。
CoreNLP - Stanford CoreNLP提供了一组自然语言分析工具，可采取原始英语文本输入并给出单词的基本形式。
Stanford Parser - parser是一个程序，能分析出句子的语法结构。
Stanford POS Tagger - 词性标注器
斯坦福名称实体识别器 - 斯坦福大学NER是一个Java实现的命名实体识别器。
Stanford Word Segmenter - 原始文本的token化是许多NLP任务的标准预处理步骤。
Tregex，Tsurgeon和Semgrex - Tregex是匹配树模式的工具，基于树的关系和正则表达式的节点匹配（“树正则表达式”的缩写）。
Stanford Phrasal：基于短语的翻译系统
Stanford English Tokenizer - Stanford Phrasal是最先进的统计的基于短语的机器翻译系统，用Java编写。
Stanford Tokens Regex - 一个标记器将文本划分为一系列标记，大致对应于“单词”
Stanford Temporal Tagger - SUTime是识别和规范时间表达式的库。
Stanford SPIED - 从种子集开始，迭代使用模式，从未标注文本中习得实体。
斯坦福主题建模工具箱 - 主题建模工具，社会学家用它分析的数据集。
Twitter Text Java - Java实现的Twitter文本处理库。
MALLET - 基于Java的软件包，包括统计自然语言处理，文档分类，聚类，主题建模，信息提取，以及其它机器学习应用。
OpenNLP - 一个基于机器学习的自然语言处理的工具包。
LingPipe - 计算语言学工具包。
ClearTK - ClearTK提供了开发统计自然语言处理组件的框架，其建立在Apache UIMA之上。
Apache cTAKES - Apache临床文本分析及知识提取系统（cTAKES）是从电子病历，临床文本中进行信息抽取的一个开源系统。

通用机器学习

aerosolve - Airbnb从头开始设计的机器学习库，易用性好。
Datumbox - 机器学习和统计应用程序的快速开发框架。
ELKI - 数据挖掘工具。（非监督学习：聚类，离群点检测等。）
Encog - 先进的神经网络和机器学习框架.Encog中包含用于创建各种网络，以及规范和处理数据的神经网络.Encog训练采用多线程弹性的传播方式.Encog还可以利用GPU的进一步加快处理时间。有基于GUI的工作台。
H2O - 机器学习引擎，支持Hadoop，Spark等分布式系统和个人电脑，可以通过R，Python，Scala，REST / JSON调用API。
htm.java - 通用机器学习库，使用Numenta的皮质学习算法
java-deeplearning - 分布式深度学习平台for Java，Clojure，Scala
JAVA-ML - Java通用机器学习库，所有算法统一接口。
JSAT - 具有很多分类，回归，聚类等机器学习算法。
Mahout - 分布式机器学习工具。
Meka - 一个开源实现的多标签分类和评估方法。基于weka扩展。
Apache Spark中的MLlib - Spark分布式机器学习库
Neuroph - 轻量级Java神经网络框架
ORYX - Lambda架构框架，使用Apache Spark和Apache Kafka实现实时大规模机器学习。
RankLib - 排序算法学习库。
斯坦福分类器 - 分类器是一种机器学习工具，它将获取数据项并将它们放入k类之一。
SmileMiner - 统计机器智能和学习引擎
SystemML - 灵活的，可扩展的机器学习语言。
WalnutiQ - 面向对象的人脑模型
Weka - WEKA是机器学习算法用于数据挖掘任务的算法集合。

语音识别

CMU Sphinx - 开源工具包，用于语音识别，完全基于Java的语音识别库。

数据分析，可视化

Hadoop - Hadoop / HDFS
Spark - Spark快速通用的大规模数据处理引擎。
Impala - 实时Hadoop查询。
DataMelt - 数学软件，包含数值计算，统计，符号计算，数据分析和数据可视化。
Michael Thomas Flanagan博士的Java科学图书馆

深度学习

Deeplearning4j - 可扩展的产业化的深度学习，利用并行的GPU。

Python

计算机视觉

Scikit-Image - Python中的图像处理算法的集合。
SimpleCV - 一个开源的计算机视觉框架，允许访问几个高性能计算机视觉库，如OpenCV。可以运行在Mac，Windows和Ubuntu Linux操作系统上。
Vigranumpy - 计算机视觉库VIGRA C ++的Python绑定。

自然语言处理

NLTK - 构建与人类语言数据相关工作的Python程序的领先平台。
Pattern - 基于Python的Web挖掘模块。它有自然语言处理，机器学习等工具。
Quepy - 将自然语言问题转换成数据库查询语言。
TextBlob - 为普通的自然语言处理（NLP）任务提供一致的API。构建于NLTK和Pattern上，并很好地与两者交互。
YAlign - 句子对齐工具，从对照语料中抽取并行句子。
jieba - 中文分词工具
SnowNLP - 中文文本处理库。
loso - 中文分词工具
genius - 基于条件随机场的中文分词工具
KoNLPy - 韩语自然语言处理
nut - 自然语言理解工具
Rosetta - 文本处理工具和包装（例如Vowpal Wabbit）
BLLIP Parser - BLLIP Natural Language Parser的Python绑定（即Charniak-Johnson解析器）
PyNLPl - Python的自然语言处理库。还包含用于解析常见NLP格式的工具，如FoLiA，以及ARPA语言模型，摩西短语表，GIZA ++对齐等。
python-ucto - ucto（面向unicode的基于规则的tokenizer）的Python绑定
python-frog - Frog的Python绑定。荷兰语的词性标注，lemmatisation，依存分析，NER。
python-zpar - ZPar的Python绑定（英文的基于统计的词性标注，constiuency解析器和依赖解析器）
colibri-core - 高效提取n-gram和skipgrams的C ++库的Python绑定
spaCy - 工业级NLP与Python和Cython。
PyStanfordDependencies - 将Penn Treebank树转换到Stanford依存树的Python接口。

通用机器学习

机器学习 - 构建和web-interface， programmatic-interface兼容的支持向量机API。相应的数据集存储到一个SQL数据库，然后生成用于预测的模型，存储到一个的NoSQL的数据库。
XGBoost - eXtreme Gradient Boosting（Tree）库的Python绑定
Featureforge一组工具，用于创建和测试机器学习的特征，具有与scikit学习兼容的API
scikit-learn - 基于SciPy的机器学习的Python模块。
度量学习 - 度量学习的Python模块
SimpleAI - 实现了“人工智能现代方法”一书中描述的许多人工智能算法。它着重于提供一个易于使用的，文档良好的和经过测试的库。
astroML - 天文学机器学习和数据挖掘库。
graphlab-create - 基于磁盘支持的DataFrame的库，实现了各种机器学习模型（回归，聚类，推荐系统，图形分析等）。
BigML - 与外部服务器交流的库。
模式 - Web数据挖掘模块。
NuPIC - Numenta智能计算平台。
Pylearn2 - 基于Theano的机器学习库。
keras - 基于Theano的神经网络库
hebel - GPU加速的Python深度学习库。
Chainer -灵活的神经网络架构
gensim - 易用的主题建模工具
topik - 主题建模工具包
PyBrain - 另一个Python机器学习库。
Crab - 灵活的，快速的推荐引擎
python-recsys - 实现一个推荐系统的Python工具
限制玻尔兹曼机器 - 受限玻尔兹曼机
CoverTree - 覆盖树的Python实现，scipy.spatial.kdtree的近乎直接替代
nilearn - NeuroImaging机器学习库
Shogun - Shogun机器学习工具箱
Pyevolve - 遗传算法框架
Caffe - 深度学习框架，结构清晰，可读性好，速度快。
breze - 基于Theano的深度神经网络
pyhsmm - 贝叶斯隐马尔可夫模型近似无监督的推理和显式时长隐半马尔可夫模型，专注于贝叶斯非参数扩展，HDP-HMM和HDP-HSMM，大多是弱极限近似。
mrjob - 使得Python程序可以跑在Hadoop上。
SKLL - 简化的scikit-learn接口，易于做实验
neurolab - https://github.com/zueve/neurolab
Spearmint - 贝叶斯算法的优化。方法见于论文：机器学习算法的实用贝叶斯优化。Jasper Snoek，Hugo Larochelle和Ryan P. Adams。神经信息处理系统的进展，2012。
Pebl - 贝叶斯学习的Python环境
Theano - 优化GPU元编程代码，生成面向矩阵的优化的数学编译器
TensorFlow - 用数据流图进行数值计算的开源软件库
yahmm - 隐马尔可夫模型，用Cython实现
python-timbl - 包装了完整的TiMBL C ++编程接口。Timbl是一个精心制作的ķ最近邻机器学习工具包。
deap - 进化算法框架
pydeep - Python深度学习
mlxtend - 对数据科学和机器学习任务非常有用的工具库。
neon - 高性能深度学习框架
Optunity - 致力于自动化超参数优化过程，使用一个简单的，轻量级的API，以方便直接替换网格搜索。
懊恼 - 近似最近邻居的实施
skflow - TensorFlow的简化界面，类似Scikit Learn。
TPOT - 自动创建并利用遗传编程优化机器学习的管道。将它看作您的数据科学助理，自动化机器学习中大部分的枯风工作。

数据分析，可视化

SciPy - 基于Python的数学，科学和工程开源软件生态系统。
NumPy - 使用Python进行科学计算的基础包。
Numba - Python JIT（及时）编译LLVM，旨在由Cython和NumPy的开发人员进行科学Python。
NetworkX - 适用于复杂网络的高效软件。
Pandas - 提供高性能，易于使用的数据结构和数据分析工具的库。
开放式挖掘 - Python中的商业智能（BI）（Pandas Web界面）
PyMC - 马尔可夫链蒙特卡罗采样工具包。
zipline - 一个Pythonic算法交易库。
PyDy - Python Dynamics的缩写，用于协助基于NumPy，SciPy，IPython和matplotlib的动态运动建模工作流程。
SymPy - 符号数学的Python库。
statsmodels - Python中的统计建模和计量经济学。
astropy - 用于天文学的社区Python库。
matplotlib - Python 2D绘图库。
散景 - Python的交互式Web绘图。
plotly - Python和matplotlib的协作网络绘图。
vincent - 一个Python到Vega的翻译。
d3py - 基于D3.js的 Python的plottling库。
ggplot - 与g的ggplot2相同的API
ggfortify - ggplot2流行R包的统一接口。
Kartograph.py - 在Python中渲染漂亮的SVG地图。
pygal - Python SVG Charts Creator。
PyQtGraph - 基于PyQt4 / PySide和NumPy构建的纯python图形和GUI库。
pycascading
Petrel - 用于编写，提交，调试和监控纯Python中的Storm拓扑的工具。
Blaze - NumPy和Pandas与大数据的接口。
emcee - 用于仿射不变MCMC的Python集合采样工具包。
windML - 风能分析和预测的Python框架
vispy - 基于GPU的高性能交互式OpenGL 2D / 3D数据可视化库
cerebro2用于NuPIC的基于Web的可视化和调试平台。
NuPIC Studio一体化NuPIC分层时间内存可视化和调试超级工具！
PySpark上的SparklingPandas Pandas（POPS）
Seaborn - 基于matplotlib的python可视化库
bqplot - 用于在Jupyter（IPython）中绘图的API

Common Lisp

通用机器学习

mgl - 神经网络（boltzmann机器，前馈和重复网络），高斯过程
mgl-gpr - 进化算法
cl-libsvm - libsvm支持向量机库的包装器

Clojure的

自然语言处理

Clojure-openNLP - Clojure中的自然语言处理（opennlp）
Infections-clj - 用于Clojure和ClojureScript的类似Rails的变形库

通用机器学习

Touchstone - Clojure A / B测试库
Clojush - 他推动编程语言和在Clojure中实现的PushGP遗传编程系统
推断 - 在clojure中的推理和机器学习
Clj-ML - 一个基于Weka和朋友建立的Clojure机器学习库
Encog - Encog（v3）的Clojure包装器（专门用于神经网络的机器学习框架）
Fungp - Clojure的遗传编程库
Statistiker - Clojure中的基本机器学习算法。
clortex - 使用Numenta的皮质学习算法的通用机器学习库
comportex - 使用Numenta的皮质学习算法的功能可组合的机器学习库

数据分析，可视化

Incanter - Incanter是一个基于Clojure的R型统计计算和图形平台。
PigPen - 用于Clojure的Map-Reduce。
Envision - Clojure数据可视化库，基于Statistiker和D3

MATLAB

计算机视觉

Contourlets - 实现contourlet变换及其效用函数的MATLAB源代码。
Shearlets - 用于剪切变换的MATLAB代码
Curvelets - Curvelet变换是小波变换的高维概括，旨在表示不同尺度和不同角度的图像。
Bandlets - 用于bandlet变换的MATLAB代码
mexopencv - 用于OpenCV库的MATLAB mex函数的集合和开发工具包

自然语言处理

NLP - Matlab的NLP库

通用机器学习

t分布式随机邻域嵌入 - t-SNE是一个获奖的技术，可以降维，尤其适合高维数据可视化
蜘蛛 - 蜘蛛有望成为matlab里机器学习中的完整的面向对象环境。
LibSVM - 着名的支持向量机库。
LibLinear - 大型线性分类库
Caffe - 深度学习框架，结构清晰，可读性好，速度快。
模式识别工具箱 - Matlab机器学习中一个完整的面向对象的环境。
Optunity - 一个专用于自动超参数优化的库，它具有简单，轻量级的API，便于直接替换网格搜索。Optunity是用Python编写的，但与MATLAB无缝连接。致力于自动化超参数优化的，一个简单的，轻量级的API库，方便直接替换网格搜索.Optunity是用Python编写的，但与MATLAB的无缝连接。

数据分析，可视化

matlab_gbl - MatlabBGL是一个matlab程序包与图形工作。
gamic - 图算法的高效纯Matlab实现，以补充MatlabBGL的mex函数。

.NET

计算机视觉

OpenCVDotNet - 与.NET应用程序一起使用的OpenCV项目的包装器。
Emgu CV - OpenCV的跨平台包装器，可以在Mono上编译，在Windows，Linus，Mac OS X，iOS和Android上运行。
AForge.NET - 面向计算机视觉和人工智能领域的开发人员和研究人员的开源C＃框架。开发现已转移到GitHub。
Accord.NET - 与AForge.NET一起，该库可以为Windows，Windows RT和Windows Phone提供图像处理和计算机视觉算法。一些组件也可用于Java和Android。

自然语言处理

Stanford.NLP for .NET - 一个完整的Stanford NLP软件包到.NET的端口，也可以预编译为NuGet软件包。

通用机器学习

Accord-Framework - 一个完整的框架，可以用于机器学习，计算机视觉，计算机试听，信号处理，统计应用等..
Accord.MachineLearning - 支持向量机，决策树，朴素贝叶斯模型，K均值，高斯混合模型和一般算法，如Ransac，交叉验证和网格搜索，用于机器学习应用程序。该软件包是Accord.NET Framework的一部分。
DiffSharp - 一个自动微分（AD）库，为机器学习和优化应用提供精确有效的导数（梯度，Hessians，Jacobians，方向导数和无矩阵Hessian和Jacobian矢量积）。操作可以嵌套到任何级别，这意味着您可以计算精确的高阶导数并区分内部利用差异的函数，用于超参数优化等应用程序。
Vulpes - 用F＃编写的深层信念和深度学习实现，并利用Alea.cuBase利用CUDA GPU执行。
Encog - 先进的神经网络和机器学习框架。Encog包含用于创建各种网络的类，以及支持类来规范化和处理这些神经网络的数据。Encog列车使用多线程弹性传播。Encog还可以利用GPU来进一步加快处理速度。还提供基于GUI的工作台以帮助建模和训练神经网络。
神经网络设计者 - 神经网络的 DBMS管理系统和设计者。设计器应用程序是使用WPF开发的，它是一个用户界面，允许您设计神经网络，查询网络，创建和配置能够提出问题并从反馈中学习的聊天机器人。聊天机器人甚至可以抓住互联网获取信息，以便在输出中返回以及用于学习。

数据分析，可视化

numl - numl是一个机器学习库，旨在简化使用标准建模技术进行预测和聚类的过程。
Math.NET Numerics - Math.NET项目的数字基础，旨在为科学，工程和日常使用中的数值计算提供方法和算法。在Windows，Linux和Mac上支持.Net 4.0，.Net 3.5和Mono; Silverlight 5，WindowsPhone / SL 8，WindowsPhone 8.1和Windows 8，带PCL便携式配置文件47和344; Android / iOS与Xamarin。
Sho -Sho是一个用于数据分析和科学计算的交互式环境，可让您将脚本（在IronPython中）与编译代码（在.NET中）无缝连接，以实现快速灵活的原型设计。该环境包括强大而高效的线性代数库以及可从任何.NET语言使用的数据可视化，以及用于快速开发的功能丰富的交互式shell。

Ruby

自然语言处理

Treat - Text REtrieval和Annotation Toolkit，绝对是迄今为止我遇到过的最全面的Ruby工具包
Ruby Linguistics - Linguistics是一个用于为任何语言的Ruby对象构建语言实用程序的框架。它包括一个通用语言无关的前端，一个用于将语言代码映射到语言名称的模块，以及一个包含各种英语实用程序的模块。
Stemmer - 将libstemmer_c暴露给Ruby
Ruby Wordnet - 这个库是WordNet的Ruby接口
Raspel - raspell是一个绑定ruby的界面
UEA Stemmer - UEALite Stemmer的Ruby端口 - 一个用于搜索和索引的保守词干
Twitter-text-rb - 一个在推文中自动链接和提取用户名，列表和主题标签的库

通用机器学习

Ruby Machine Learning - 一些机器学习算法，用Ruby实现
机器学习Ruby
jRuby Mahout - JRuby Mahout是一个在JRuby世界中释放Apache Mahout强大功能的宝石。
CardMagic-Classifier - 允许贝叶斯和其他类型分类的通用分类器模块。

数据分析，可视化

rsruby - Ruby - R桥
data-visualization-ruby - 我使用Ruby进行数据可视化的Ruby Manor演示文稿的源代码和支持内容
ruby-plot - 用于ruby的gnuplot包装器，特别适用于将roc曲线绘制成svg文件
plot-rb - 在Vega和D3之上构建Ruby的绘图库。
scruffy - 一个漂亮的Ruby图形工具包
SciRuby
Glean - 一种人类数据管理工具
Bioruby
阿雷尔

杂项

黑猩猩的大数据
Listof - 基于社区的数据收集，包装在gem中。获取txt，json或hash中几乎所有内容（停用词，国家/地区，非单词）的列表。演示/搜索列表

R

通用机器学习

ahaz - ahaz：半参数加性危险回归的正则化
arules - arules：挖掘关联规则和频繁项集
bigrf - bigrf：大随机森林：大数据集的分类和回归森林
bigRR - bigRR：广义岭回归（特别有利于p >> n个案例）
bmrm - bmrm：规范风险最小化包的捆绑方法
Boruta - Boruta：用于所有相关特征选择的包装算法
bst - bst：Gradient Boosting
C50 - C50：C5.0决策树和基于规则的模型
插入符号 - 分类和回归训练：R中~150 ML算法的统一接口
caretEnsemble - caretEnsemble：用于拟合多个插入符号模型以及创建此类模型的集合的框架。
机器学习的聪明算法
CORElearn - CORElearn：分类，回归，特征评估和序数评估
CoxBoost - CoxBoost：Cox模型通过基于可能性的单一生存终点提升或竞争风险
Cubist - Cubist：基于规则和实例的回归建模
e1071 - e1071：统计部的杂项职能（e1071），TU Wien
地球：多元自适应回归样条模型
elasticnet - elasticnet：用于稀疏估计和稀疏PCA的弹性网络
ElemStatLearn - ElemStatLearn：本书的数据集，函数和实例：Trevor Hastie，Robert Tibshirani和Jerome Friedman的“统计学习，数据挖掘，推理和预测的元素”预测“由Trevor Hastie，Robert Tibshirani和Jerome Friedman撰写
evtree - evtree：全球最优树的进化学习
fpc - fpc：灵活的聚类过程
frbs - frbs：基于模糊规则的分类和回归任务系统
GAMBoost - GAMBoost：基于可能性增强的广义线性和加性模型
gamboostLSS - gamboostLSS：GAMLSS的提升方法
gbm - gbm：广义Boosted回归模型
glmnet - glmnet：Lasso和弹性网正则化广义线性模型
glmpath - glmpath：广义线性模型的L1正则化路径和Cox比例风险模型
GMMBoost - GMMBoost：基于似然的推广广义混合模型
grplasso - grplasso：使用Group Lasso惩罚来拟合用户指定的模型
grpreg - grpreg：具有分组协变量的回归模型的正则化路径
h2o - 大规模快速，并行和分布式机器学习算法的框架 - Deeplearning，Random forest，GBM，KMeans，PCA，GLM
hda - hda：异方差判别分析
统计学习简介
ipred - ipred：改进的预测器
kernlab - kernlab：基于内核的机器学习实验室
klaR - klaR：分类和可视化
lars - lars：最小角度回归，Lasso和Forward Stagewise
lasso2 - lasso2：L1约束估计又称'lasso'
LiblineaR - LiblineaR：基于Liblinear C / C ++库的线性预测模型
LogicReg - LogicReg：逻辑回归
机器学习黑客
maptree - maptree：映射，修剪和绘制树模型
mboost - mboost：基于模型的Boosting
medley - medley：使用贪婪的逐步方法混合回归模型
mlr - mlr：R中的机器学习
mvpart - mvpart：多变量分区
ncvreg - ncvreg：SCAD和MCP惩罚回归模型的正则化路径
nnet - nnet：前馈神经网络和多项式对数线性模型
oblique.tree - oblique.tree：分类数据的斜树
pamr - pamr：Pam：微阵列的预测分析
党 - 党：递归党派实验室
partykit - partykit：递归派系工具包
惩罚 - 惩罚：L1（套索和融合套索）和L2（岭）惩罚GLM和Cox模型中的估计
惩罚的LDA - 惩罚的LDA：使用Fisher的线性判别式进行惩罚分类
惩罚 SVM - 惩罚的SVM：使用惩罚函数的特征选择SVM
quantregForest - quantregForest：分位数回归森林
randomForest - randomForest：Breiman和Cutler的随机森林用于分类和回归
randomForestSRC - randomForestSRC：生存，回归和分类的随机森林（RF-SRC）
rattle - rattle：R中数据挖掘的图形用户界面
RDA - RDA：缩小矩心正则化判别分析
rdetools - rdetools：特征空间中的相关维度估计（RDE）
REEMtree - REEMtree：具有随机效应的纵向（面板）数据的回归树
relaxo - relaxo：轻松的套索
rgenoud - rgenoud：使用衍生物进行GENetic优化的R版本
rgp - rgp：R遗传编程框架
Rmalschains - Rmalschains：在R中使用Memetic算法和局部搜索链（MA-LS-Chains）进行连续优化
rminer - rminer：在分类和回归中更简单地使用数据挖掘方法（例如NN和SVM）
ROCR - ROCR：可视化评分分类器的性能
RoughSets - RoughSets：数据分析基于粗糙集与模糊粗糙集理论
rpart - rpart：递归分区和回归树
RPMM - RPMM：递归分区混合模型
RSNNS - RSNNS：使用斯图加特神经网络模拟器（SNNS）的R中的神经网络
RWeka - RWeka：R / Weka界面
RXshrink - RXshrink：通过广义脊或最小角回归的最大似然收缩
sda - sda：收缩判别分析和CAT得分变量选择
SDDA - SDDA：逐步对角判别分析
SuperLearner和subsemble -多算法集成学习包。
svmpath - svmpath：svmpath：SVM路径算法
tgp - tgp：贝叶斯treed高斯过程模型
树 - 树：分类和回归树
varSelRF - varSelRF：使用随机森林的变量选择
XGBoost.R - 用于极限梯度提升（树）库的R绑定
Optunity - 一个专用于自动超参数优化的库，它具有简单，轻量级的API，便于直接替换网格搜索。Optunity是用Python编写的，但与R无缝连接。

数据分析，可视化

ggplot2 - 基于图形语法的数据可视化包。

scala

自然语言处理

ScalaNLP - ScalaNLP是一套机器学习和数值计算库。
Breeze - Breeze是Scala的数字处理库。
Chalk - Chalk是一个自然语言处理库。
FACTORIE - FACTORIE是可部署概率建模的工具包，在Scala中作为软件库实现。它为用户提供了一种简洁的语言，用于创建关系因子图，估计参数和执行推理。

数据分析，可视化