机器学习(Machine Learning)与深度学习(Deep Learning)资料之相关框架、库、软件、工具、github、工程

最新推荐文章于 2024-05-13 09:52:45 发布

我还听说过石壁岭的小河湾

最新推荐文章于 2024-05-13 09:52:45 发布

阅读量863

点赞数

分类专栏：框架&库软件&工具 GitHub & 工程代码机器学习深度学习文章标签：机器学习深度学习神经网络

机器学习同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

深度学习

6 篇文章 0 订阅

订阅专栏

框架&库

1 篇文章 0 订阅

订阅专栏

以下内容摘选自：https://github.com/ty4z2008/Qix/blob/master/dl2.md

https://github.com/ty4z2008/Qix/blob/master/dl.md

《A Plethora of Tools for Machine Learning》

介绍:机器学习工具包/库的综述/比较.

《TensorFlow is an Open Source Software Library for Machine Intelligence》

介绍:Google开源最新机器学习系统 TensorFlow官网,此外提供TensorFlow白皮书white paper of tensorflow 2015.hacker news,Google大牛解读TensorFlow

《Veles:Distributed machine learning platform》

介绍:三星开源的快速深度学习应用程序开发分布式平台.

《DMTK:Microsoft Distributed Machine Learning Tookit 》

介绍:分布式机器学习工具包.

《Deep Machine Learning libraries and frameworks》

介绍:深度机器学习库与框架

《Theano is a Deep learning Python library 》

介绍:Theano是主流的深度学习Python库之一，亦支持GPU,入门比较难.推荐Theano tutorial,Document

《Computational Network Toolkit (CNTK)》

介绍:微软研究院把其深度学习工具包CNTK,想进一步了解和学习CNTK的同学可以看前几天公布的《CNTK白皮书》An Introduction toComputational Networks and the Computational Network Toolkit.

《Kalman and Bayesian Filters in Python》

介绍:卡尔曼滤波器教材，用尽量少的数学和推导，传授直觉和经验，全部Python示例，内容覆盖卡尔曼滤波器、扩展卡尔曼滤波，无迹卡尔曼滤波，粒子滤波等，包括练习和参考答案

《BigDL: Distributed Deep learning on Apache Spark》

介绍:Spark分布式深度学习库BigDL

《Java Machine Learning》

介绍：Java机器学习相关平台和开源的机器学习库，按照大数据、NLP、计算机视觉和Deep Learning分类进行了整理。看起来挺全的，Java爱好者值得收藏。

《H2O》

介绍:一个用来快速的统计，机器学习并且对于数据量大的数学库

《人脸识别二次开发包》

介绍:人脸识别二次开发包，免费，可商用，有演示、范例、说明书.

《simplebayes》

介绍:Python下开源可持久化朴素贝叶斯分类库.

《Paracel》

介绍:Paracelis a distributed computational framework designed for machine learningproblems, graph algorithms and scientific computing in C++.

《HanLP:Han Language processing》

介绍:开源汉语言处理包.

《Scikit-learn》

介绍:Scikit-learn是基于Scipy为机器学习建造的的一个Python模块，他的特色就是多样化的分类，回归和聚类的算法包括支持向量机，逻辑回归，朴素贝叶斯分类器，随机森林，Gradient Boosting，聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy

《Pylearn2》

介绍:Pylearn是一个让机器学习研究简单化的基于Theano的库程序。

《NuPIC》

介绍:NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。

《Nilearn》

介绍:Nilearn是一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模，分类，解码，连通性分析的应用程序来进行多元的统计。

《PyBrain》

介绍:Pybrain是基于Python语言强化学习，人工智能，神经网络库的简称。它的目标是提供灵活、容易使用并且强大的机器学习算法和进行各种各样的预定义的环境中测试来比较你的算法。

《Pattern》

介绍:Pattern是Python语言下的一个网络挖掘模块。它为数据挖掘，自然语言处理，网络分析和机器学习提供工具。它支持向量空间模型、聚类、支持向量机和感知机并且用KNN分类法进行分类。

《Bob》

介绍:Bob是一个免费的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的，它的设计目的是变得更加高效并且减少开发时间，它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。

《Skdata》

介绍:Skdata是机器学习和统计的数据集的库程序。这个模块对于玩具问题，流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。

《MILK》

介绍:MILK是Python语言下的机器学习工具包。它主要是在很多可得到的分类比如SVMS,K-NN,随机森林，决策树中使用监督分类法。它还执行特征选择。这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系金传播和由MILK支持的K-means聚类等分类系统。

《IEPY》

介绍:IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。

《Quepy》

介绍:Quepy是通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以，你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。现在Quepy提供对于Sparql和MQL查询语言的支持。并且计划将它延伸到其他的数据库查询语言。

《Hebel》

介绍:Hebel是在Python语言中对于神经网络的深度学习的一个库程序，它使用的是通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能，例如动力，涅斯捷罗夫动力，信号丢失和停止法。

《mlxtend》

介绍:它是一个由有用的工具和日常数据科学任务的扩展组成的一个库程序。

《nolearn》

介绍:这个程序包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作，其它的通常更有用。

《Ramp》

介绍:Ramp是一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架，它现存的Python语言下的机器学习和统计工具（比如scikit-learn,rpy2等）Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。

《Feature Forge》

介绍:这一系列工具通过与scikit-learn兼容的API，来创建和测试机器学习功能。这个库程序提供了一组工具，它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时，你会感觉到受到了很大的帮助。（虽然这只能在你有不同的算法时起作用。）

《REP》

介绍:REP是以一种和谐、可再生的方式为指挥数据移动驱动所提供的一种环境。它有一个统一的分类器包装来提供各种各样的操作，例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。

《Golang Natural Language Processing》

介绍:Go语言编写的自然语言处理工具.

《A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library》

介绍:这是一份python机器学习库,如果您是一位python工程师而且想深入的学习机器学习.那么这篇文章或许能够帮助到你.

《Awesome Machine Learning》

介绍：一个超级完整的机器学习开源库总结，如果你认为这个碉堡了，那后面这个列表会更让你惊讶：【Awesome Awesomeness】,国内已经有热心的朋友进行了翻译中文介绍，机器学习数据挖掘免费电子书

《LambdaNet，Haskell实现的开源人工神经网络库》

介绍:LambdaNetLambdaNet是由Haskell实现的一个开源的人工神经网络库，它抽象了网络创建、训练并使用了高阶函数。该库还提供了一组预定义函数，用户可以采取多种方式组合这些函数来操作现实世界数据。

《FAIR open sources deep-learning modules for Torch》

介绍:Facebook人工智能研究院（FAIR）开源了一系列软件库，以帮助开发者建立更大、更快的深度学习模型。开放的软件库在 Facebook 被称作模块。用它们替代机器学习领域常用的开发环境 Torch 中的默认模块，可以在更短的时间内训练更大规模的神经网络模型。

《spaCy》

介绍: 用Python和Cython写的工业级自然语言处理库，号称是速度最快的NLP库，快的原因一是用Cython写的，二是用了个很巧妙的hash技术，加速系统的瓶颈，NLP中稀松特征的存取

《libfacedetection》

介绍:libfacedetection是深圳大学开源的一个人脸图像识别库。包含正面和多视角人脸检测两个算法.优点:速度快(OpenCVhaar+adaboost的2-3倍), 准确度高 (FDDB非公开类评测排名第二），能估计人脸角度。

《FuzzyWuzzy: Fuzzy String Matching in Python》

介绍:Python下的文本模糊匹配库，老库新推，可计算串间ratio(简单相似系数)、partial_ratio(局部相似系数)、token_sort_ratio(词排序相似系数)、token_set_ratio(词集合相似系数)等 github

《Blocks》

介绍:Blocks是基于Theano的神经网络搭建框架，集成相关函数、管道和算法，帮你更快地创建和管理NN模块.

《NUML》

介绍: 一个面向.net 的开源机器学习库,github地址

《synaptic.Js》

介绍: 支持node.js的JS神经网络库，可在客户端浏览器中运行，支持LSTM等 github地址

《Deep Learning libraries and ﬁrst experiments with Theano》

介绍: 深度学习框架、库调研及Theano的初步测试体会报告.

《SmileMiner》

介绍:Java机器学习算法库SmileMiner.

《Bayesian analysis》

介绍:这是一款贝叶斯分析的商业软件,官方写的贝叶斯分析的手册有250多页,虽然R语言已经有类似的项目,但毕竟可以增加一个可选项.

《Seaborn: statistical data visualization》

介绍:Python版可视化数据统计开源库.

《pyLDAvis》

介绍:(Python)主题模型交互可视化库pyLDAvis.

《InfiniTAM: 基于深度图像的体数据集成框架》

介绍：把今年的一个ACM Trans. on Graphics (TOG)论文中的代码整理为一个开源的算法框架，共享出来了。欢迎大家使用。可以实时的采集3D数据、重建出三维模型。Online learning，GPU Random forest，GPU CRF也会后续公开。

《Caffe》

介绍:Caffe是一个开源的深度学习框架，作者目前在google工作，作者主页Yangqing Jia (贾扬清)

《purine2》

介绍:新加坡LV实验室的神经网络并行框架Purine: A bi-graph based deeplearning framework,支持构建各种并行的架构，在多机多卡，同步更新参数的情况下基本达到线性加速。12块Titan 20小时可以完成Googlenet的训练。

《Palladium》

介绍:基于Scikit-Learn的预测分析服务框架Palladium.

《Deep learning on Spark with Keras》

介绍:Spark上的Keras深度学习框架Elephas.

《New open-source Machine Learning Framework written in Java》

介绍:datumbox-framework——Java的开源机器学习框架，该框架重点是提供大量的机器学习算法和统计检验，并能够处理中小规模的数据集

《Python based Deep Learning Framework by Nervana™》

介绍:NervanaSystems的开源深度学习框架neon发布.

《R software and tools for everyday use》

介绍:R语言开发常用软件/工具推荐.

《Deeplearning4j 中文主页》

介绍:英文主页

《Leaf - Machine Learning for Hackers》

介绍:Leaf是一款机器学习的开源框架，专为黑客打造，而非为科学家而作。它用Rust开发，传统的机器学习，现今的深度学习通吃。Leaf

《Open Sourcing TensorFlowOnSpark: Distributed Deep Learning on Big-Data Clusters》

介绍:雅虎开源基于spark与TensorFlow的分布式数据深度学习框架,博文介绍

A Discriminatively Learned CNN Embedding for Person Re-identification

介绍: TOMM2017 用鉴别loss(Verification)+识别loss(Identification) 来提升深度学习框架（CaffeNet VGGNet ResNet）下行人重识别检索效果 Caffe版本(https://github.com/D-X-Y/caffe-reid)

Pedestrian Alignment Network for Large-scale Person Re-identification

介绍：行人对齐和行人重识别一起做。统一框架。

《Awesome Chainer》

介绍:Chainer是一个深度学习框架，提供了很多解决方案，例如动态计算图。它是基于Python编写的

《The Parallel C++ Statistical Library for Bayesian Inference: QUESO》

介绍:C++并行贝叶斯推理统计库QUESO,github code.

《Machine Learning Libraries in GoLang by Category》

介绍:Golang实现的机器学习库资源汇总.

《Marvin：A minimalist GPU-only N-dimensional ConvNet framework》

介绍:PrincetonVision Group的深度学习库开源.

《Ufora is a compiled, automatically parallel subset of python for data science and numerical computing》

介绍:基于AWS的自动分布式科学计算库Ufora,Why I Open SourcedFive Years of Work.

《LibRec：A Java Library for Recommender Systems》

介绍:一个推荐系统的Java库

《Python libraries for building recommender systems》

介绍:Python推荐系统开发库汇总.

《Open Source Deep Learning Server》

介绍:开源的深度学习服务,DeepDetect是C++实现的基于外部机器学习/深度学习库（目前是Caffe）的API。给出了图片训练（ILSVRC）和文本训练（基于字的情感分析，NIPS15）的样例，以及根据图片标签索引到ElasticSearch中github.

《Randy Olson's data analysis and machine learning projects》

介绍:Randy Olson's的一些数据分析与机器学习项目库,是学习实践的好材料

《GoLearn:Golang machine learning library》

介绍:Golang机器学习库,简单,易扩展

《Data-Visualization Tools & Books》

介绍:数据可视化常用工具软件资源汇总

《Microsoft Open Sources Distributed Machine Learning Toolkit》

介绍:微软亚洲研究院开源分布式机器学习工具包.

《OpenAI Gym: Toolkit for developing, comparing reinforcement learning algorithms》

介绍:OpenAI Gym：开发、比较强化学习算法工具箱

《Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱》

介绍:python的17个关于机器学习的工具

《R工具包的分类汇总》

介绍:(CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) 例如: 机器学习，自然语言处理，时间序列分析，空间信息分析，多重变量分析，计量经济学，心理统计学，社会学统计，化学计量学，环境科学，药物代谢动力学等

《FudanNLP》

介绍:FudanNLP，这是一个复旦大学计算机学院开发的开源中文自然语言处理（NLP）工具包
Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能，对搜索引擎文本分析等极为有价值。

《Open Sourcing ml-ease》

介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster，和 Spark cluster 重点是 logistic regression 算法

《NeuralTalk》

介绍: NeuralTalk is a Python+numpy project for learningMultimodal Recurrent Neural Networks that describe images withsentences.NeuralTalk是一个Python的从图像生成自然语言描述的工具。它实现了Google (Vinyals等，卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei， CNN + 递归神经网络RNN)的算法。NeuralTalk自带了一个训练好的动物模型，你可以拿狮子大象的照片来试试看

《kaldi》

介绍: 一个开源语音识别工具包,它目前托管在sourceforge上面

《pandas: powerful Python data analysis toolkit》

介绍: 非常强大的Python的数据分析工具包 pandas.

《Sentiment Analysis on Twitter》

介绍:Twitter情感分析工具SentiTweet,视频+讲义.

《Canova: A Vectorization Lib for ML》

介绍:面向机器学习/深度学习的数据向量化工具Canova,github, 支持CSV文件、MNIST数据、TF-IDF/Bag of Words/word2vec文本向量化.

《VDiscover》

介绍:基于机器学习的漏洞检测工具VDiscover.

《Minerva》

介绍:深度学习系统minerva。拥有python编程接口。多GPU几乎达到线性加速。在4块GPU上能在4天内将GoogLeNet训练到68.7%的top-1以及89.0%的top-5准确率。和同为dmlc项目的cxxnet相比，采用动态数据流引擎，提供更多灵活性。未来将和cxxnet一起整合为mxnet项目，互取优势.