高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

https://www.jianshu.com/p/af18edbdfe77

 

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

【新智元导读】完全图解人工智能、NLP、机器学习、深度学习、大数据!这份备忘单涵盖了上述领域几乎全部的知识点,并使用信息图、脑图等多种可视化方式呈现,设计精美,实用性强。

今天,新智元要为大家推荐一个超实用、颜值超高的神经网络+机器学习+数据科学和Python的完全图解,文末附有高清PDF版链接,支持下载、打印,推荐大家可以做成鼠标垫、桌布,或者印成手册等随手携带,随时翻看。

这是一份非常详实的备忘单,涉及具体内容包括:

  1. 神经网络基础知识
  2. 神经网络图谱
  3. 机器学习基础知识
  4. 著名Python库Scikit-Learn
  5. Scikit-Learn算法
  6. 机器学习算法选择指南
  7. TensorFlow
  8. Python基础
  9. PySpark基础
  10. Numpy基础
  11. Bokeh
  12. Keras
  13. Pandas
  14. 使用Pandas进行Data Wrangling
  15. 使用dplyr和tidyr进行Data Wrangling
  16. SciPi
  17. MatPlotLib
  18. 使用ggplot进行数据可视化
  19. Big-O

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

神经网络Cheat Sheet

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

神经网络基础知识

人工神经网络(ANN),俗称神经网络,是一种基于生物神经网络结构和功能的计算模型。 它就像一个人工神经系统,用于接收,处理和传输计算机科学方面的信息。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

基本上,神经网络中有3个不同的层:

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

  • 输入层(所有输入都通过该层输入模型)
  • 隐藏层(可以有多个隐藏层用于处理从输入层接收的输入)
  • 输出层(处理后的数据在输出层可用)

神经网络图谱

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

图形数据可以与很多学习任务一起使用,在元素之间包含很多丰富的关联数据。例如,物理系统建模、预测蛋白质界面,以及疾病分类,都需要模型从图形输入中学习。图形推理模型还可用于学习非结构性数据,如文本和图像,以及对提取结构的推理。

机器学习Cheat Sheet

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

用Emoji解释机器学习

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Scikit-Learn基础

Scikit-learn是由Python第三方提供的非常强大的机器学习库,它包含了从数据预处理到训练模型的各个方面,回归和聚类算法,包括支持向量机,是一种简单有效的数据挖掘和数据分析工具。在实战使用scikit-learn中可以极大的节省代码时间和代码量。它基于NumPy,SciPy和matplotlib之上,采用BSD许可证。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Scikit-Learn算法

这张流程图非常清晰直观的给出了Scikit-Learn算法的使用指南。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

针对Azure Machine Learning Studios的Scikit-Learn算法

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

被Python武装起来的数据科学Cheat Sheet

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

TensorFlow

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Python基础

温馨提示,本图配合《100天从Python萌新到王者》食用,效果更佳。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

PySpark RDD基础

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,通过Scala语言实现,拥有Hadoop MapReduce所具有的优点,不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。PySpark是Spark 为 Python开发者提供的 API。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

NumPy基础

NumPy是Python语言的一个扩展程序库。支持高端大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,前身Numeric,主要用于数组计算。它实现了在Python中使用向量和数学矩阵、以及许多用C语言实现的底层函数,并且速度得到了极大提升。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Bokeh

Bokeh是一个交互式可视化库,面向现代Web浏览器。目标是提供优雅、简洁的多功能图形构造,并通过非常大或流数据集的高性能交互来扩展此功能。Bokeh可以实现快速轻松地创建交互式图表、仪表板和数据应用程序。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Keras

Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果,是做好研究的关键。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Pandas

pandas是一个为Python编程语言编写的软件库,用于数据操作和分析,基于NumPy,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量快速便捷地处理数据的函数和方法。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

使用Pandas进行Data Wrangling

Data Wrangling通常被翻译成数据整理,这个词最开始火起来是因为2017年的电影《金刚·骷髅岛》,演员马克·埃文·杰克逊扮演的角色之一被介绍为“我们的Data Wrangler史蒂夫伍德沃德”。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

使用ddyr和tidyr进行Data Wrangling

为什么使用tidyr和dplyr呢?因为虽然R中存在许多基本数据处理功能,但都有点复杂并且缺乏一致的编码,导致可读性很差的嵌套功能以及臃肿的代码。使用ddyr和tidyr可以获得:

  • 更高效的代码
  • 更容易记住的语法
  • 更好的语法可读性

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Scipy线性代数

SciPy是一个开源的Python算法库和数学工具包。 SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。 与其功能相类似的软件还有MATLAB、GNU Octave和Scilab。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Matplotlib

Matplotlib是Python编程语言及其数值数学扩展包NumPy的可视化操作界面。 它为利用通用的图形用户界面工具包,如Tkinter, wxPython, Qt或GTK+向应用程序嵌入式绘图提供了应用程序接口(API)。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

使用ggplot2进行数据可视化

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

Big-O

大O符号(英语:Big O notation),又稱為漸進符號,是用于描述函数渐近行为的数学符号。 更确切地说,它是用另一个(通常更简单的)函数来描述一个函数数量级的渐近上界。 ... 阶)的大O,最初是一个大写希腊字母“Ο”(omicron),现今用的是大写拉丁字母“O”。

高清图解:神经网络、机器学习、数据科学一网打尽|附PDF

 

PDF下载(或点击阅读原文链接):

https://cheatsheets.becominghumanai.com/

参考链接:

https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-science-pdf-f22dc900d2d7

⼈⼯智能的常⽤⼗种算法 根据⼀些 feature 进⾏分类,每个节点提⼀个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投 ⼊新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶⼦上。 如果你觉得这篇⽂章看起来稍微还有些吃⼒,或者想要更系统地学习⼈⼯智能,那么推荐你去看床长⼈⼯智能教程。⾮常棒的⼤神之作,教 程不仅通俗易懂,⽽且很风趣幽默。点击可以查看教程。 2. 随机森林 随机森林 在源数据中随机选取数据,组成⼏个⼦集 S 矩阵是源数据,有 1-N 条数据,A B C 是feature,最后⼀列C是类别 由 S 随机⽣成 M 个⼦矩阵 这 M 个⼦集得到 M 个决策树 将新数据投⼊到这 M 个树中,得到 M 个分类结果,计数看预测成哪⼀类的数⽬最多,就将此类别作为最后的预测结果 3. 逻辑回归 逻辑回归 当预测⽬标是概率这样的,值域需要满⾜⼤于等于0,⼩于等于1的,这个时候单纯的线性模型是做不到的,因为在定义域不在某个范围之 内时,值域也超出了规定区间。 所以此时需要这样的形状的模型会⽐较好 那么怎么得到这样的模型呢? 这个模型需要满⾜两个条件 ⼤于等于0,⼩于等于1 ⼤于等于0 的模型可以选择 绝对值,平⽅值,这⾥⽤ 指数函数,⼀定⼤于0 ⼩于等于1 ⽤除法,分⼦是⾃⼰,分母是⾃⾝加上1,那⼀定是⼩于1的了 再做⼀下变形,就得到了 logistic regression 模型 1. 决策树 决策树 通过源数据计算可以得到相应的系数了 最后得到 logistic 的图形 4. SVM support vector machine 要将两类分开,想要得到⼀个超平⾯,最优的超平⾯是到两类的 margin 达到最⼤,margin就是超平⾯与离它最近⼀点的距离,如下 图,Z2>Z1,所以绿⾊的超平⾯⽐较好 将这个超平⾯表⽰成⼀个线性⽅程,在线上⽅的⼀类,都⼤于等于1,另⼀类⼩于等于-1 点到⾯的距离根据图中的公式计算 所以得到 total margin 的表达式如下,⽬标是最⼤化这个 margin,就需要最⼩化分母,于是变成了⼀个优化问题 举个栗⼦,三个点,找到最优的超平⾯,定义了 weight vector=(2,3)-(1,1) 得到 weight vector 为(a,2a),将两个点代⼊⽅程,代⼊(2,3)另其值=1,代⼊(1,1)另其值=-1,求解出 a 和 截矩 w0 的 值,进⽽得到超平⾯的表达式。 a 求出来后,代⼊(a,2a)得到的就是 support vector a 和 w0 代⼊超平⾯的⽅程就是 support vector machine 5. 朴素贝叶斯 朴素贝叶斯 举个在 NLP 的应⽤ 给⼀段⽂字,返回情感分类,这段⽂字的态度是positive,还是negative 为了解决这个问题,可以只看其中的⼀些单词 这段⽂字,将仅由⼀些单词和它们的计数代表 原始问题是:给你⼀句话,它属于哪⼀类 通过 bayes rules 变成⼀个⽐较简单容易求得的问题 问题变成,这⼀类中这句话出现的概率是多少,当然,别忘了公式⾥的另外两个概率 栗⼦:单词 love 在 positive 的情况下出现的概率是 0.1,在 negative 的情况下出现的概率是 0.001 6. K最近邻 最近邻 k nearest neighbours 给⼀个新的数据时,离它最近的 k 个点中,哪个类别多,这个数据就属于哪⼀类 栗⼦:要区分 猫 和 狗,通过 claws 和 sound 两个feature来判断的话,圆形和三⾓形是已知分类的了,那么这个 star 代表的是哪⼀类呢 k=3时,这三条线链接的点就是最近的三个点,那么圆形多⼀些,所以这个star就是属于猫 7. K均值 均值 想要将⼀组数据,分为三类,粉⾊数值⼤,黄⾊数值⼩ 最开⼼先初始化,这⾥⾯选了最简单的 3,2,1 作为各类的初始值 剩下的数据⾥,每个都与三个初始值计算距离,然后归类到离它最近的初始值所在类别 分好类后,计算每⼀类的平均值,作为新⼀轮的中⼼点 ⼏轮之后,分组不再变化了,就可以停⽌了 8. Adaboost adaboost 是 bosting 的⽅法之⼀ bosting就是把若⼲个分类效果并不好的分类器综合起来考虑,会得到⼀个效果⽐较好的分类器。 下图,左右两个决策树,单个看是效果不怎么好的,但是把同样的数据投⼊进去,把两个结果加起来考虑,就会增加可信度 adaboost 的栗⼦,⼿写识别中,在画板上可以抓取到很多 features,例如 始点的⽅向,始点和终点的距离等等 training 的时候,会得到每个 feature 的 weight,例如 2 和 3 的开头部分很像,这个 feature 对分类起到的作⽤很
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值