机器学习(Machine Learning)与深度学习(Deep Learning)资料 之 相关框架、库、软件、工具、github、工程

以下内容摘选自:https://github.com/ty4z2008/Qix/blob/master/dl2.md

                          https://github.com/ty4z2008/Qix/blob/master/dl.md


  • A Plethora of Tools for Machine Learning

介绍:机器学习工具包/库的综述/比较.

  • TensorFlow is an Open Source Software Library for Machine Intelligence

介绍:Google开源最新机器学习系统 TensorFlow官网,此外提供TensorFlow白皮书white paper of tensorflow 2015.hacker news,Google大牛解读TensorFlow

  • Veles:Distributed machine learning platform

介绍:三星开源的快速深度学习应用程序开发分布式平台.

  • DMTK:Microsoft Distributed Machine Learning Tookit

介绍:分布式机器学习工具包.

  • Deep Machine Learning libraries and frameworks

介绍:深度机器学习库与框架

  • Theano is a Deep learning Python library

介绍:Theano是主流的深度学习Python库之一,亦支持GPU,入门比较难.推荐Theano tutorial,Document

  • Computational Network Toolkit (CNTK)

介绍:微软研究院把其深度学习工具包CNTK,想进一步了解和学习CNTK的同学可以看前几天公布的《CNTK白皮书》An Introduction toComputational Networks and the Computational Network Toolkit.

  • Kalman and Bayesian Filters in Python

介绍:卡尔曼滤波器教材,用尽量少的数学和推导,传授直觉和经验,全部Python示例,内容覆盖卡尔曼滤波器、扩展卡尔曼滤波,无迹卡尔曼滤波,粒子滤波等,包括练习和参考答案

  • BigDL: Distributed Deep learning on Apache Spark

介绍:Spark分布式深度学习库BigDL

  • Java Machine Learning

介绍:Java机器学习相关平台和开源的机器学习库,按照大数据、NLP、计算机视觉和Deep Learning分类进行了整理。看起来挺全的,Java爱好者值得收藏。

介绍:一个用来快速的统计,机器学习并且对于数据量大的数学库

介绍:人脸识别二次开发包,免费,可商用,有演示、范例、说明书.

  • simplebayes

介绍:Python下开源可持久化朴素贝叶斯分类库.

介绍:Paracelis a distributed computational framework designed for machine learningproblems, graph algorithms and scientific computing in C++.

  • HanLP:Han Language processing

介绍:开源汉语言处理包.

  • Scikit-learn

介绍:Scikit-learn是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Python numericalscientific libraries Numpy and Scipy

介绍:Pylearn是一个让机器学习研究简单化的基于Theano的库程序。

介绍:NuPIC是一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。

介绍:Nilearn是一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模,分类,解码,连通性分析的应用程序来进行多元的统计。

介绍:Pybrain是基于Python语言强化学习,人工智能,神经网络库的简称。它的目标是提供灵活、容易使用并且强大的机器学习算法和进行各种各样的预定义的环境中测试来比较你的算法。

介绍:PatternPython语言下的一个网络挖掘模块。它为数据挖掘,自然语言处理,网络分析和机器学习提供工具。它支持向量空间模型、聚类、支持向量机和感知机并且用KNN分类法进行分类。

介绍:Bob是一个免费的信号处理和机器学习的工具。它的工具箱是用PythonC++语言共同编写的,它的设计目的是变得更加高效并且减少开发时间,它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。

介绍:Skdata是机器学习和统计的数据集的库程序。这个模块对于玩具问题,流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。

介绍:MILKPython语言下的机器学习工具包。它主要是在很多可得到的分类比如SVMS,K-NN,随机森林,决策树中使用监督分类法。它还执行特征选择。这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系金传播和由MILK支持的K-means聚类等分类系统。

介绍:IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。

介绍:Quepy是通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以,你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。现在Quepy提供对于SparqlMQL查询语言的支持。并且计划将它延伸到其他的数据库查询语言。

介绍:Hebel是在Python语言中对于神经网络的深度学习的一个库程序,它使用的是通过PyCUDA来进行GPUCUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能,例如动力,涅斯捷罗夫动力,信号丢失和停止法。

介绍:它是一个由有用的工具和日常数据科学任务的扩展组成的一个库程序。

介绍:这个程序包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作,其它的通常更有用。

介绍:Ramp是一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架,它现存的Python语言下的机器学习和统计工具(比如scikit-learn,rpy2等)Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。

  • Feature Forge

介绍:这一系列工具通过与scikit-learn兼容的API,来创建和测试机器学习功能。这个库程序提供了一组工具,它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时,你会感觉到受到了很大的帮助。(虽然这只能在你有不同的算法时起作用。)

介绍:REP是以一种和谐、可再生的方式为指挥数据移动驱动所提供的一种环境。它有一个统一的分类器包装来提供各种各样的操作,例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。

  • Golang Natural Language Processing

介绍:Go语言编写的自然语言处理工具.

  • A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library


介绍:这是一份python机器学习库,如果您是一位python工程师而且想深入的学习机器学习.那么这篇文章或许能够帮助到你.

  • Awesome Machine Learning

介绍:一个超级完整的机器学习开源库总结,如果你认为这个碉堡了,那后面这个列表会更让你惊讶:【Awesome Awesomeness,国内已经有热心的朋友进行了翻译中文介绍机器学习数据挖掘免费电子书

  • LambdaNetHaskell实现的开源人工神经网络库

介绍:LambdaNetLambdaNet是由Haskell实现的一个开源的人工神经网络库,它抽象了网络创建、训练并使用了高阶函数。该库还提供了一组预定义函数,用户可以采取多种方式组合这些函数来操作现实世界数据。

  • FAIR open sources deep-learning modules for Torch

介绍:Facebook人工智能研究院(FAIR)开源了一系列软件库,以帮助开发者建立更大、更快的深度学习模型。开放的软件库在 Facebook 被称作模块。用它们替代机器学习领域常用的开发环境 Torch 中的默认模块,可以在更短的时间内训练更大规模的神经网络模型。

介绍: PythonCython写的工业级自然语言处理库,号称是速度最快的NLP库,快的原因一是用Cython写的,二是用了个很巧妙的hash技术,加速系统的瓶颈,NLP中稀松特征的存取

  • libfacedetection

介绍:libfacedetection是深圳大学开源的一个人脸图像识别库。包含正面和多视角人脸检测两个算法.优点:速度快(OpenCVhaar+adaboost2-3), 准确度高 (FDDB非公开类评测排名第二),能估计人脸角度。

  • FuzzyWuzzy: Fuzzy String Matching in Python

介绍:Python下的文本模糊匹配库,老库新推,可计算串间ratio(简单相似系数)partial_ratio(局部相似系数)token_sort_ratio(词排序相似系数)token_set_ratio(词集合相似系数) github


介绍:Blocks是基于Theano的神经网络搭建框架,集成相关函数、管道和算法,帮你更快地创建和管理NN模块.

介绍: 一个面向.net 的开源机器学习库,github地址

  • synaptic.Js

介绍: 支持node.jsJS神经网络库,可在客户端浏览器中运行,支持LSTM github地址

  • Deep Learning libraries and rst experiments with Theano

介绍: 深度学习框架、库调研及Theano的初步测试体会报告.

  • SmileMiner

介绍:Java机器学习算法库SmileMiner.

  • Bayesian analysis

介绍:这是一款贝叶斯分析的商业软件,官方写的贝叶斯分析的手册250多页,虽然R语言已经有类似的项目,但毕竟可以增加一个可选项.

  • Seaborn: statistical data visualization

介绍:Python版可视化数据统计开源库.

介绍:(Python)主题模型交互可视化库pyLDAvis.

  • InfiniTAM: 基于深度图像的体数据集成框架》

介绍:把今年的一个ACM Trans. on Graphics (TOG)论文中的代码整理为一个开源的算法框架,共享出来了。欢迎大家使用。可以实时的采集3D数据、重建出三维模型。Online learningGPU Random forestGPU CRF也会后续公开。


介绍:Caffe是一个开源的深度学习框架,作者目前在google工作,作者主页Yangqing Jia (贾扬清)

介绍:新加坡LV实验室的神经网络并行框架Purine: A bi-graph based deeplearning framework,支持构建各种并行的架构,在多机多卡,同步更新参数的情况下基本达到线性加速。12Titan 20小时可以完成Googlenet的训练。

  • Palladium

介绍:基于Scikit-Learn的预测分析服务框架Palladium.

  • Deep learning on Spark with Keras

介绍:Spark上的Keras深度学习框架Elephas.

  • New open-source Machine Learning Framework written in Java

介绍:datumbox-framework——Java的开源机器学习框架,该框架重点是提供大量的机器学习算法和统计检验,并能够处理中小规模的数据集

  • Python based Deep Learning Framework by Nervana™

介绍:NervanaSystems的开源深度学习框架neon发布.

  • R software and tools for everyday use

介绍:R语言开发常用软件/工具推荐.

  • Deeplearning4j 中文主页》

介绍:英文主页

  • Leaf - Machine Learning for Hackers

介绍:Leaf是一款机器学习的开源框架,专为黑客打造,而非为科学家而作。它用Rust开发,传统的机器学习,现今的深度学习通吃。Leaf

  • Open Sourcing TensorFlowOnSpark: Distributed Deep Learning on Big-Data Clusters

介绍:雅虎开源基于sparkTensorFlow的分布式数据深度学习框架,博文介绍

介绍TOMM2017 鉴别loss(Verification)+识别loss(Identification) 来提升深度学习框架(CaffeNet VGGNet ResNet)下行人重识别检索效果   Caffe版本(https://github.com/D-X-Y/caffe-reid)

介绍:行人对齐和行人重识别一起做。统一框架。

  • Awesome Chainer

介绍:Chainer是一个深度学习框架,提供了很多解决方案,例如动态计算图。它是基于Python编写的

  • The Parallel C++ Statistical Library for Bayesian Inference: QUESO

介绍:C++并行贝叶斯推理统计库QUESO,github code.

  • Machine Learning Libraries in GoLang by Category

介绍:Golang实现的机器学习库资源汇总.

  • MarvinA minimalist GPU-only N-dimensional ConvNet framework

介绍:PrincetonVision Group的深度学习库开源.

  • Ufora is a compiled, automatically parallel subset of python for data science and numerical computing

介绍:基于AWS的自动分布式科学计算库Ufora,Why I Open SourcedFive Years of Work.

  • LibRecA Java Library for Recommender Systems

介绍:一个推荐系统的Java

  • Python libraries for building recommender systems

介绍:Python推荐系统开发库汇总.

  • Open Source Deep Learning Server

介绍:开源的深度学习服务,DeepDetectC++实现的基于外部机器学习/深度学习库(目前是Caffe)的API。给出了图片训练(ILSVRC)和文本训练(基于字的情感分析,NIPS15)的样例,以及根据图片标签索引到ElasticSearchgithub.

  • Randy Olson's data analysis and machine learning projects

介绍:Randy Olson's的一些数据分析与机器学习项目库,是学习实践的好材料

  • GoLearn:Golang machine learning library

介绍:Golang机器学习库,简单,易扩展

  • Data-Visualization Tools & Books

介绍:数据可视化常用工具软件资源汇总

  • Microsoft Open Sources Distributed Machine Learning Toolkit

介绍:微软亚洲研究院开源分布式机器学习工具包.

  • OpenAI Gym: Toolkit for developing, comparing reinforcement learning algorithms

介绍:OpenAI Gym:开发、比较强化学习算法工具箱

  • Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱》

介绍:python17个关于机器学习的工具

  • R工具包的分类汇总》

介绍:(CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) 例如: 机器学习,自然语言处理,时间序列分析,空间信息分析,多重变量分析,计量经济学,心理统计学,社会学统计,化学计量学,环境科学,药物代谢动力学

介绍:FudanNLP,这是一个复旦大学计算机学院开发的开源中文自然语言处理(NLP)工具包
Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能,对搜索引擎文本分析等极为有价值。

  • Open Sourcing ml-ease

介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster,和 Spark cluster 重点是 logistic regression 算法

  • NeuralTalk

介绍: NeuralTalk is a Python+numpy project for learningMultimodal Recurrent Neural Networks that describe images withsentences.NeuralTalk是一个Python的从图像生成自然语言描述的工具。它实现了Google (Vinyals等,卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei CNN + 递归神经网络RNN)的算法。NeuralTalk自带了一个训练好的动物模型,你可以拿狮子大象的照片来试试看

介绍: 一个开源语音识别工具包,它目前托管在sourceforge上面

  • pandas: powerful Python data analysis toolkit

介绍: 非常强大的Python的数据分析工具包 pandas.

  • Sentiment Analysis on Twitter

介绍:Twitter情感分析工具SentiTweet,视频+讲义.

  • Canova: A Vectorization Lib for ML

介绍:面向机器学习/深度学习的数据向量化工具Canova,github, 支持CSV文件、MNIST数据、TF-IDF/Bag of Words/word2vec文本向量化.

  • VDiscover

介绍:基于机器学习的漏洞检测工具VDiscover.

介绍:深度学习系统minerva。拥有python编程接口。多GPU几乎达到线性加速。在4GPU上能在4天内将GoogLeNet训练到68.7%top-1以及89.0%top-5准确率。和同为dmlc项目的cxxnet相比,采用动态数据流引擎,提供更多灵活性。未来将和cxxnet一起整合为mxnet项目,互取优势.

  • Show Me The Money

介绍:面向金融数据的情感分析工具.

  • Machine Learning Open Source Software

介绍:机器学习开源软件

介绍:ALibrary for Support Vector Machines

  • Fast R-CNN

介绍:Thispaper proposes Fast R-CNN, a clean and fast framework for object detection.

  • A Huge List of Machine Learning And Statistics Repositories

介绍:Github机器学习/数学/统计/可视化/深度学习相关项目大列表.

介绍:很多arXiv上面知名论文可以在这个网站找到github的项目链接.

  • Top 20 Python Machine Learning Open Source Projects

介绍:20个最热门的开源(Python)机器学习项目.

介绍:100 Best GitHub: Deep Learning

  • scikit-learn:用于机器学习的Python模块》

介绍:scikit-learn是在SciPy基础上构建的用于机器学习的Python模块。

介绍:本项目利用了Microsoft Azure,可以在几分种内完成NLP on Azure Website的部署,立即开始对FNLP各种特性的试用,或者以REST API的形式调用FNLP的语言分析功能


介绍:部分中文列表

介绍:PyNLPIR提供了NLPIR/ICTCLAS汉语分词的Python接口,此外Zhon提供了常用汉字常量,如CJK字符和偏旁,中文标点,拼音,和汉字正则表达式(如找到文本中的繁体字)

  • Machine learning open source software


介绍:机器学习开源软件,收录了各种机器学习的各种编程语言学术与商业的开源软件.与此类似的还有很多例如:DMOZ - Computers: Artificial Intelligence: Machine Learning: Software,LIBSVM -- A Libraryfor Support Vector Machines,Weka 3: Data MiningSoftware in Java,scikit-learn:MachineLearning in Python,Natural LanguageToolkit:NLTK,MAchine Learning forLanguagE Toolkit,Data Mining -Fruitful and Fun,Open Source ComputerVision Library

  • Introducing streaming k-means in Spark 1.2

介绍:很多公司都用机器学习来解决问题,提高用户体验。那么怎么可以让机器学习更实时和有效呢?Spark MLlib 1.2里面的Streaming K-means,由斑马鱼脑神经研究的Jeremy Freeman脑神经科学家编写,最初是为了实时处理他们每半小时1TB的研究数据,现在发布给大家用了。

  • Neural Network Dependency Parser

介绍:基于神经网络的自然语言依存关系解析器(已集成至StanfordCoreNLP),特点是超快、准确,目前可处理中英文语料,基于A Fast and Accurate Dependency ParserUsing Neural Networks 思路实现.

介绍:一个基于OpenGL实现的卷积神经网络,支持LinuxWindows.

介绍:PDNN: A Python Toolkit for Deep Learning.

  • Distributed (Deep) Machine Learning Common

介绍:A Community of awesome Distributed Machine Learning C++projects.

介绍:Portable, scalable and reliabledistributed machine learning.

  • convnet-benchmarks

介绍:CNN开源实现横向评测,参评框架包括Caffe Torch-7CuDNN cudaconvnet2 fbfftNervana Systems等,NervanaSys表现突出.

  • Time-lapse Mining from Internet Photos

介绍:用网络图片合成延时视频(SIGGRAPH 2015).

介绍:Theano/Blocks实现RNN手写字符串生成sketch.

  • The Eyescream Project NeuralNets dreaming natural images

介绍:来自Facebook的图像自动生成.

  • MLbase:Distributed Machine Learning Made Easy

介绍:MLbaseProf. Dr. Tim Kraska的一个研究项目,MLbase是一个分布式机器学习管理系统

  • CaffeOnSpark Open Sourced for Distributed Deep Learning on Big Data Clusters

介绍::(Yahoo)基于Hadoop/Spark的分布式Caffe实现CaffeOnSpark

  • Top Spark Ecosystem Projects

介绍:Spark生态顶级项目汇总

  • StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

介绍:StarGAN实现人脸部件、性别、年龄、表情等变化。实现代码. YouTube上面有简单的视频介绍。@layumi

  • Apache Singa --A General Distributed Deep Learning Platform

介绍:无需做深度学习就能用的分布式深度学习软件,github.

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Examine the problem of maintaining the quality of big data and discover novel solutions. You will learn the four V’s of big data, including veracity, and study the problem from various angles. The solutions discussed are drawn from diverse areas of engineering and math, including machine learning, statistics, formal methods, and the Blockchain technology. Veracity of Big Data serves as an introduction to machine learning algorithms and diverse techniques such as the Kalman filter, SPRT, CUSUM, fuzzy logic, and Blockchain, showing how they can be used to solve problems in the veracity domain. Using examples, the math behind the techniques is explained in easy-to-understand language. Determining the truth of big data in real-world applications involves using various tools to analyze the available information. This book delves into some of the techniques that can be used. Microblogging websites such as Twitter have played a major role in public life, including during presidential elections. The book uses examples of microblogs posted on a particular topic to demonstrate how veracity can be examined and established. Some of the techniques are described in the context of detecting veiled attacks on microblogging websites to influence public opinion. What You'll Learn Understand the problem concerning data veracity and its ramifications Develop the mathematical foundation needed to help minimize the impact of the problem using easy-to-understand language and examples Use diverse tools and techniques such as machine learning algorithms, Blockchain, and the Kalman filter to address veracity issues Who This Book Is For Software developers and practitioners, practicing engineers, curious managers, graduate students, and research scholars
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值