高清图解:神经网络、机器学习、数据科学一网打尽

|导|读|

BY:AI-Beetle

完全图解人工智能、NLP、机器学习、深度学习、大数据!这份备忘单涵盖了上述领域几乎全部的知识点,并使用信息图、脑图等多种可视化方式呈现,设计精美,实用性强。
今天,我们要为大家推荐一个超实用、颜值超高的神经网络+机器学习+数据科学和Python的完全图解,文末附有高清PDF版链接,支持下载、打印,推荐大家可以做成鼠标垫、桌布,或者印成手册等随手携带,随时翻看。
这是一份非常详实的备忘单,涉及具体内容包括:
1.2神经网络
3.神经网络基础知识
4.神经网络图谱
5.机器学习
6.机器学习基础知识
7.著名Python库Scikit-Learn
8.Scikit-Learn算法
9.机器学习算法选择指南
10.数据科学
11.TensorFlow
12.Python基础
13.PySpark基础
14.Numpy基础
15.Bokeh
16.Keras
17.Pandas
18.使用Pandas进行Data Wrangling
19.使用dplyr和tidyr进行Data Wrangling
20.SciPi
21.MatPlotLib
22.使用ggplot进行数据可视化
23.Big-O

神经网络Cheat Sheet

神经网络基础知识

人工神经网络(ANN),俗称神经网络,是一种基于生物神经网络结构和功能的计算模型。 它就像一个人工神经系统,用于接收,处理和传输计算机科学方面的信息。

基本上,神经网络中有3个不同的层:

输入层(所有输入都通过该层输入模型)
隐藏层(可以有多个隐藏层用于处理从输入层接收的输入)
输出层(处理后的数据在输出层可用)

神经网络图谱

图形数据可以与很多学习任务一起使用,在元素之间包含很多丰富的关联数据。例如,物理系统建模、预测蛋白质界面,以及疾病分类,都需要模型从图形输入中学习。图形推理模型还可用于学习非结构性数据,如文本和图像,以及对提取结构的推理。

机器学习Cheat Sheet

用Emoji解释机器学习

Scikit-Learn基础

Scikit-learn是由Python第三方提供的非常强大的机器学习库,它包含了从数据预处理到训练模型的各个方面,回归和聚类算法,包括支持向量机,是一种简单有效的数据挖掘和数据分析工具。在实战使用scikit-learn中可以极大的节省代码时间和代码量。它基于NumPy,SciPy和matplotlib之上,采用BSD许可证。

Scikit-Learn算法

这张流程图非常清晰直观的给出了Scikit-Learn算法的使用指南。

针对Azure Machine Learning Studios的Scikit-Learn算法

被Python武装起来的数据科学Cheat Sheet

TensorFlow

Python基础

温馨提示,本图配合《100天从Python萌新到王者》食用,效果更佳。

PySpark RDD基础

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,通过Scala语言实现,拥有Hadoop MapReduce所具有的优点,不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。PySpark是Spark 为 Python开发者提供的 API。

NumPy基础

NumPy是Python语言的一个扩展程序库。支持高端大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,前身Numeric,主要用于数组计算。它实现了在Python中使用向量和数学矩阵、以及许多用C语言实现的底层函数,并且速度得到了极大提升。

Bokeh

Bokeh是一个交互式可视化库,面向现代Web浏览器。目标是提供优雅、简洁的多功能图形构造,并通过非常大或流数据集的高性能交互来扩展此功能。Bokeh可以实现快速轻松地创建交互式图表、仪表板和数据应用程序。

Keras

Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果,是做好研究的关键。

Pandas

pandas是一个为Python编程语言编写的软件库,用于数据操作和分析,基于NumPy,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量快速便捷地处理数据的函数和方法。

使用Pandas进行Data Wrangling

Data Wrangling通常被翻译成数据整理,这个词最开始火起来是因为2017年的电影《金刚·骷髅岛》,演员马克·埃文·杰克逊扮演的角色之一被介绍为“我们的Data Wrangler史蒂夫伍德沃德”。

使用ddyr和tidyr进行Data Wrangling

为什么使用tidyr和dplyr呢?因为虽然R中存在许多基本数据处理功能,但都有点复杂并且缺乏一致的编码,导致可读性很差的嵌套功能以及臃肿的代码。使用ddyr和tidyr可以获得:

更高效的代码
更容易记住的语法
更好的语法可读性

Scipy线性代数

SciPy是一个开源的Python算法库和数学工具包。 SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。 与其功能相类似的软件还有MATLAB、GNU Octave和Scilab。

Matplotlib

Matplotlib是Python编程语言及其数值数学扩展包NumPy的可视化操作界面。 它为利用通用的图形用户界面工具包,如Tkinter, wxPython, Qt或GTK+向应用程序嵌入式绘图提供了应用程序接口(API)。

使用ggplot2进行数据可视化

Big-O

大O符号(英语:Big O notation),又稱為漸進符號,是用于描述函数渐近行为的数学符号。 更确切地说,它是用另一个(通常更简单的)函数来描述一个函数数量级的渐近上界。 … 阶)的大O,最初是一个大写希腊字母“Ο”(omicron),现今用的是大写拉丁字母“O”。

想要获取更多人工智能方面的资料
可以加V、、信:hcgx0904(备注“人工智能”)
点击《深度学习&计算机视觉精讲》,开始学起来吧!

⼈⼯智能的常⽤⼗种算法 根据⼀些 feature 进⾏分类,每个节点提⼀个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投 ⼊新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶⼦上。 如果你觉得这篇⽂章看起来稍微还有些吃⼒,或者想要更系统地学习⼈⼯智能,那么推荐你去看床长⼈⼯智能教程。⾮常棒的⼤神之作,教 程不仅通俗易懂,⽽且很风趣幽默。点击可以查看教程。 2. 随机森林 随机森林 在源数据中随机选取数据,组成⼏个⼦集 S 矩阵是源数据,有 1-N 条数据,A B C 是feature,最后⼀列C是类别 由 S 随机⽣成 M 个⼦矩阵 这 M 个⼦集得到 M 个决策树 将新数据投⼊到这 M 个树中,得到 M 个分类结果,计数看预测成哪⼀类的数⽬最多,就将此类别作为最后的预测结果 3. 逻辑回归 逻辑回归 当预测⽬标是概率这样的,值域需要满⾜⼤于等于0,⼩于等于1的,这个时候单纯的线性模型是做不到的,因为在定义域不在某个范围之 内时,值域也超出了规定区间。 所以此时需要这样的形状的模型会⽐较好 那么怎么得到这样的模型呢? 这个模型需要满⾜两个条件 ⼤于等于0,⼩于等于1 ⼤于等于0 的模型可以选择 绝对值,平⽅值,这⾥⽤ 指数函数,⼀定⼤于0 ⼩于等于1 ⽤除法,分⼦是⾃⼰,分母是⾃⾝加上1,那⼀定是⼩于1的了 再做⼀下变形,就得到了 logistic regression 模型 1. 决策树 决策树 通过源数据计算可以得到相应的系数了 最后得到 logistic 的形 4. SVM support vector machine 要将两类分开,想要得到⼀个超平⾯,最优的超平⾯是到两类的 margin 达到最⼤,margin就是超平⾯与离它最近⼀点的距离,如下 ,Z2>Z1,所以绿⾊的超平⾯⽐较好 将这个超平⾯表⽰成⼀个线性⽅程,在线上⽅的⼀类,都⼤于等于1,另⼀类⼩于等于-1 点到⾯的距离根据中的公式计算 所以得到 total margin 的表达式如下,⽬标是最⼤化这个 margin,就需要最⼩化分母,于是变成了⼀个优化问题 举个栗⼦,三个点,找到最优的超平⾯,定义了 weight vector=(2,3)-(1,1) 得到 weight vector 为(a,2a),将两个点代⼊⽅程,代⼊(2,3)另其值=1,代⼊(1,1)另其值=-1,求解出 a 和 截矩 w0 的 值,进⽽得到超平⾯的表达式。 a 求出来后,代⼊(a,2a)得到的就是 support vector a 和 w0 代⼊超平⾯的⽅程就是 support vector machine 5. 朴素贝叶斯 朴素贝叶斯 举个在 NLP 的应⽤ 给⼀段⽂字,返回情感分类,这段⽂字的态度是positive,还是negative 为了解决这个问题,可以只看其中的⼀些单词 这段⽂字,将仅由⼀些单词和它们的计数代表 原始问题是:给你⼀句话,它属于哪⼀类 通过 bayes rules 变成⼀个⽐较简单容易求得的问题 问题变成,这⼀类中这句话出现的概率是多少,当然,别忘了公式⾥的另外两个概率 栗⼦:单词 love 在 positive 的情况下出现的概率是 0.1,在 negative 的情况下出现的概率是 0.001 6. K最近邻 最近邻 k nearest neighbours 给⼀个新的数据时,离它最近的 k 个点中,哪个类别多,这个数据就属于哪⼀类 栗⼦:要区分 猫 和 狗,通过 claws 和 sound 两个feature来判断的话,圆形和三⾓形是已知分类的了,那么这个 star 代表的是哪⼀类呢 k=3时,这三条线链接的点就是最近的三个点,那么圆形多⼀些,所以这个star就是属于猫 7. K均值 均值 想要将⼀组数据,分为三类,粉⾊数值⼤,黄⾊数值⼩ 最开⼼先初始化,这⾥⾯选了最简单的 3,2,1 作为各类的初始值 剩下的数据⾥,每个都与三个初始值计算距离,然后归类到离它最近的初始值所在类别 分好类后,计算每⼀类的平均值,作为新⼀轮的中⼼点 ⼏轮之后,分组不再变化了,就可以停⽌了 8. Adaboost adaboost 是 bosting 的⽅法之⼀ bosting就是把若⼲个分类效果并不好的分类器综合起来考虑,会得到⼀个效果⽐较好的分类器。 下,左右两个决策树,单个看是效果不怎么好的,但是把同样的数据投⼊进去,把两个结果加起来考虑,就会增加可信度 adaboost 的栗⼦,⼿写识别中,在画板上可以抓取到很多 features,例如 始点的⽅向,始点和终点的距离等等 training 的时候,会得到每个 feature 的 weight,例如 2 和 3 的开头部分很像,这个 feature 对分类起到的作⽤很
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值