精心设计的机器学习框架,图书馆和软件(通过语言)的列表。受到真棒-PHP的启发。其他真棒列表可以在找到真棒,人迷死名单。
如果你想贡献这份清单(请做),给我一个拉请求或联系我@josephmisiti
蟒蛇
自然语言处理
- NLTK - 构建Python程序以处理人类语言数据的领先平台。
- 模式 - Python编程语言的Web挖掘模块。它具有自然语言处理,机器学习等工具。
- TextBlob - 为潜入常见的自然语言处理(NLP)任务提供一致的API。站在NLTK和Pattern的巨大肩膀上,并与两者都很好地搭配。
- jieba - 中文分词工具。
- SnowNLP - 一个处理中文文本的库。
- LOSO -另一个中文分割库。
- 天才 - 基于条件随机场的中文细分市场。
- 坚果 - 自然语言理解工具包
通用机器学习
- 针对黑客的贝叶斯方法 - Book / iPython关于Python中概率编程的笔记本
- Apache Spark中的MLlib - Spark中的分布式机器学习库
- scikit-learn - 一个基于SciPy构建的机器学习Python模块。
- BigML - 联系外部服务器的库。
- 模式 - Python的Web挖掘模块。
- NuPIC - 用于智能计算的Numenta平台。
- Pylearn2 - 基于Theano的机器学习库。
- hebel - GPU加速的Python深度学习库。
- gensim - 人类主题建模。
- PyBrain - 另一个Python机器学习库。
- 螃蟹 - 灵活的快速推荐引擎。
- python-recsys - 用于实现推系统的Python库。
- 思考贝叶斯 - 关于贝叶斯分析的书
- 限制玻尔兹曼机器 - 限制玻尔兹曼机器在Python中。[深度学习]
- 螺栓 - 螺栓在线学习工具箱
- CoverTree - 覆盖树的Python实现,近乎替代scipy.spatial.kdtree
- nilearn - 用Python进行NeuroImaging 的机器学习
数据分析/数据可视化
- SciPy - 基于Python的数学,科学和工程开放源码软件生态系统。
- NumPy - Python的科学计算基础包。
- Numba - Python JIT(及时编译)LLVM,由Cython和NumPy开发人员以科学Python为目标。
- NetworkX - 适用于复杂网络的高效软件。
- Pandas - 提供高性能,易于使用的数据结构和数据分析工具的库。
- 开放式挖掘 - Python中的商业智能(BI)(Pandas Web界面)
- PyMC - 马尔可夫链蒙特卡洛采样工具包。
- zipline - 一种Pythonic算法交易库。
- PyDy - Python Dynamics的简称,用于辅助基于NumPy,SciPy,IPython和matplotlib的动态运行建模工作流程。
- SymPy - 符号数学的Python库。
- statsmodels - Python中的统计建模和计量经济学。
- astropy - 一个用于天文学的社区Python库。
- matplotlib - 一个Python 2D绘图库。
- bokeh - Python的交互式Web绘图。
- 情节化 - 为Python和matplotlib协作的网页绘图。
- vincent - Python to Vega翻译器。
- d3py - 基于D3.js的 Python缓存库。
- ggplot - 与R的ggplot2相同的API。
- Kartograph.py - 在Python中渲染美丽的SVG地图。
- pygal - 一个Python SVG Charts Creator。
- pycascading
杂项脚本/ iPython笔记本/代码库
- pattern_classification
- 思考统计2
- hyperopt
- numpic
- 2012年纸diginorm
- IPython的中的笔记本电脑
- 决策权
- Sarah Palin LDA - 主题塑造Sarah Palin电子邮件。
- 扩散分割 - 一组基于扩散方法的图像分割算法
- Scipy教程 - SciPy教程。这已经过时了,请查看scipy-lecture-notes
- Crab - Python的推荐引擎库
- BayesPy - Python中的贝叶斯推理工具
- scikit-learn教程 - 用于学习scikit-learn的系列笔记本
- 情绪分析器 - 推文情感分析器
- group-lasso - 在(Sparse)Group Lasso模型中使用坐标下降算法的一些实验
- mne-python-notebooks - 使用mne-python进行EEG / MEG数据处理的IPython笔记本
- 熊猫烹饪书 - 使用Python的熊猫图书馆的食谱
Kaggle竞争源代码
- wiki challange - 戴尔张解决维基百科对Kaggle的参与挑战的实施方案
- kaggle侮辱 - Kaggle提交的“检测社会评论中的侮辱”
- kaggle_acquire-valued -shoppers-challenge - Kaggle的代码获取有价值的购物者挑战
- kaggle-cifar - Kaggle的CIFAR-10竞赛代码使用cuda-convnet
- kaggle-blackbox - 深度学习变得简单
- kaggle-accelerometer - Kaggle加速度计生物识别竞赛代码
- kaggle-advertised-salaries - 预测来自广告的工作薪水 - Kaggle比赛
C ++
计算视野
- CCV
- OpenCV - OpenCV具有C ++,C,Python,Java和MATLAB接口,并支持Windows,Linux,Android和Mac OS。它具有C ++,C,Python,Java和MATLAB接口,支持Windows,Linux,Android和苹果系统。
通用机器学习
红宝石
自然语言处理
- Treat - Text REtrieval和Annotation Toolkit,绝对是迄今为止我遇到的Ruby最全面的工具包
- Ruby语言学 - 语言学是一种为任何语言的Ruby对象构造语言工具的框架。它包含一个通用语言独立前端,一个将语言代码映射到语言名称的模块,以及一个包含各种英语语言实用程序的模块。
- Stemmer - 将libstemmer_c暴露给Ruby
- Ruby Wordnet - 这个库是WordNet的Ruby接口
- Raspel - raspell是一个为红宝石绑定的界面
- UEA Stemmer - UEALite Stemmer的红宝石端口 - 用于搜索和索引的保守词干
- Twitter-text-rb - 在推文中自动链接和提取用户名,列表和主题标签的库
通用机器学习
- Ruby机器学习 - 一些机器学习算法,用Ruby实现
- 机器学习红宝石
- jRuby Mahout - JRuby Mahout是一款在JRuby世界释放Apache Mahout力量的宝石。
- CardMagic分类器 - 允许贝叶斯分类和其他类型分类的通用分类器模块。
- 神经网络和深度学习 - 我的书“神经网络和深度学习”的代码示例[深度学习]
数据分析/数据可视化
- rsruby - Ruby - R桥
- data-visualization-ruby - 我的Ruby Manor介绍数据可视化与Ruby的源代码和支持内容
- ruby-plot - 用于ruby的gnuplot包装器,特别是用于将roc曲线绘制到svg文件中
- plot-rb - 在Vega和D3之上构建的Ruby中的绘图库。
- sc - - 一个美丽的Ruby图形工具包
- SciRuby
- Glean - 一种用于人类的数据管理工具
- Bioruby
- 阿雷尔
杂项
[R
通用机器学习
数据分析/数据可视化
使用Javascript
自然语言处理
- Twitter-text-js - Twitter文本处理库的JavaScript实现
- NLP.js - JavaScript和coffeescript中的NLP实用程序
数据分析/数据可视化
通用机器学习
- Convnet.js - ConvNetJS是一个Javascript库,用于培训深度学习模型[深度学习]
- Clustering.js - 使用Javascript为Node.js和浏览器实现的集群算法
- 决策树 - NodeJS使用ID3算法实现决策树
- Node.fan的Node- fann - FANN(快速人工神经网络库)绑定
- Kmeans.js - k-means算法的简单Javascript实现,适用于node.js和浏览器
- LDA.js - node.js的LDA主题建模
- Learning.js - 逻辑回归/ c4.5决策树的Javascript实现
- 机器学习 - Node.js的机器学习库
- Node-SVM - 支持向量机nodejs
- 大脑 - JavaScript中的神经网络
斯卡拉
自然语言处理
- ScalaNLP - ScalaNLP是一套机器学习和数字计算库。
- Breeze - Breeze是Scala的数字处理库。
- 粉笔 - 粉笔是一种自然语言处理库。
- FACTORIE - FACTORIE是一个可部署概率建模工具包,在Scala中作为软件库实现。它为用户提供简洁的语言,用于创建关系因子图,估计参数和执行推理。
数据分析/数据可视化
- Apache Spark中的MLlib - Spark中的分布式机器学习库
- Scalding - 用于级联的Scala API
- Summing Bird - 使用Scalding和Storm流式MapReduce
- Algebird - 斯卡拉的抽象代数
- xerial - Scala的数据管理工具
- 煨 - 减少你的数据。用于algebird-powered聚合的unix过滤器。
- PredictionIO - PredictionIO,一款面向软件开发人员和数据工程师的机器学习服务器。
通用机器学习
- 猜想 - Scaling中的可伸缩机器学习
- brushfire - 用于烫伤的决策树
- 加尼沙 - 烫伤机器学习
- adam - 基于Apache Avro,Apache Spark和Parquet构建的基因组处理引擎和专业文件格式。Apache 2许可。
- bioscala - Scala编程语言的生物信息学
Java的
自然语言处理
- [CoreNLP](http://nlp.stanford.edu/software/corenlp.shtml) - 斯坦福大学CoreNLP提供了一套自然语言分析工具,可以采用原始的英文文本输入并给出基本的单词形式
- [斯坦福分析器](http://nlp.stanford.edu/software/lex-parser.shtml) - 自然语言分析器是计算句子的语法结构的程序
- [斯坦福POS标记](http://nlp.stanford.edu/software/tagger.shtml) - 词性标记(POS Tagger)
- [斯坦福名称实体识别器](http://nlp.stanford.edu/software/CRF-NER.shtml) - 斯坦福NER是命名实体识别器的Java实现。
- [Stanford Word Segmenter](http://nlp.stanford.edu/software/segmenter.shtml) - 原始文本的标记是许多NLP任务的标准预处理步骤。
- Tregex,Tsurgeon和Semgrex - Tregex是基于树关系和节点上的正则表达式匹配(名称是“树正则表达式”的简称),用于匹配树中的模式的实用程序。
- 斯坦福大学的短语:基于短语的翻译系统
- 斯坦福英语Tokenizer - 斯坦福大学的Phrasal是一种基于Java语言的最先进的统计短语机器翻译系统。
- 斯坦福德令牌正则表达式 - 令牌化器将文本划分为一系列令牌,大致对应于“单词”
- 斯坦福时间标记 - SUTime是一个用于识别和标准化时间表达的库。
- Stanford SPIED - 从未标记的文本中学习实体,以迭代方式使用模式开始
- 斯坦福大学专题建模工具箱 - 为希望对数据集进行分析的社会科学家和其他人提供主题建模工具
- Twitter Text Java - Twitter的文本处理库的Java实现
- MALLET - 基于Java的统计自然语言处理,文档分类,聚类,主题建模,信息提取和其他机器学习应用程序到文本的软件包。
- OpenNLP - 一种用于处理自然语言文本的基于机器学习的工具包。
- LingPipe - 使用计算语言学处理文本的工具包。
通用机器学习
- Apache Spark中的MLlib - Spark中的分布式机器学习库
- Mahout - 分布式机器学习
- 斯坦福分类器 - 分类器是一种机器学习工具,可以将数据项放入k个类中的一个。
- Weka - Weka是用于数据挖掘任务的机器学习算法的集合
- ORYX - 简单的实时大型机器学习基础设施。
数据分析/数据可视化
走
自然语言处理
- go-porterstemmer - Porter Stemming算法的原生Go clean room实现。
- paicehusk - Golang实现的Paice / Husk Stemming算法
- 雪球 - Goball的Snowball Stemmer。
通用机器学习
数据分析/数据可视化
MATLAB
计算机视觉
- Contourlets - 实现contourlet变换及其效用函数的MATLAB源代码。
- Shearlets - 用于剪切变换的MATLAB代码
- Curvelets - Curvelet变换是用于表示不同尺度和不同角度图像的Wavelet变换的更高维泛化。
- 小波 - 用于bandlet变换的MATLAB代码
自然语言处理
- NLP - 一个用于Matlab的NLP库
通用机器学习
- 在MNIST数字上训练深度自动编码器或分类器 - 在MNIST数字上训练深度自动编码器或分类器[深度学习]
- t-分布式随机相邻嵌入 - t-分布式随机相邻嵌入(t-SNE)是降维的(获奖)技术,特别适用于高维数据集的可视化。
- 蜘蛛 - 蜘蛛旨在成为一个完整的面向对象的Matlab机器学习环境。
- LibSVM - 支持向量机库
- LibLinear - 大线性分类库
- 机器学习模块 - 带有PDF,讲座,代码的机器类
数据分析/数据可视化
- matlab_gbl - MatlabBGL是一个matlab程序包与图形工作。
- gamic - 用于补充MatlabBGL的mex函数的图形算法的高效纯Matlab实现。
朱莉娅
通用机器学习
- PGM - 概率图模型的Julia框架。
- DA - 用于正则判别分析的Julia包
- 回归 - 回归分析的算法(例如线性回归和逻辑回归)
- 局部回归 - 本地回归,如此潇洒!
- 朴素贝叶斯 - 简单朴素贝叶斯在朱莉娅的实现
- 混合模型 - 用于拟合(统计)混合效果模型的Julia包
- 简单的MCMC - 在Julia中实现的基本mcmc采样器
- 距离 - Julia模块进行距离评估
- 决策树 - 决策树分类器和回归器
- 神经 - Julia的神经网络
- MCMC - Julia的MCMC工具
- GLM - Julia中的广义线性模型
- 在线学习
- GLMNet - 使用glmnet装配Lasso / ElasticNet GLM模型的Julia包装
- 聚类 - 聚类数据的基本功能:k-means,dp-means等。
- SVM - 支持Julia的SVM
- 核密度 - 茱莉亚的核密度估计器
- 维数降低 - 维数降低的方法
- NMF - 用于非负矩阵分解的Julia包
自然语言处理
数据分析/数据可视化
图布局 - 纯Julia中的图布局算法
数据框元数据框的元 - 元编程工具
Julia数据库 - 用于处理Julia中的表格数据
数据读取 - 从Stata,SAS和SPSS读取文件
假设检验 - Julia的假设检验
Gladfly - 狡猾的Julia统计图形。
统计 - Julia的统计测试
RDataSets - Julia包,用于加载R中可用的许多数据集
DataFrames - 用于在Julia中处理表格数据的库
分布 - 概率分布和相关函数的Julia包。
数据数组 - 允许缺失值的数据结构
时间序列 - Julia的时间序列工具包
抽样 - Julia的基本抽样算法
杂项东西/演示文稿
- JuliaCon演讲 - JuliaCon演讲
- SignalProcessing - Julia的信号处理工具
- 图像 - Julia的图像库