静敬澹一

代码皮的炸药库。Mary!!

排序:
默认
按更新时间
按访问量

Variational Autoencoder(变分自编码)

使用通用自编码器的时候,首先将输入encoder压缩为一个小的 form,然后将其decoder转换成输出的一个估计。如果目标是简单的重现输入效果很好,但是若想生成新的对象就不太可行了,因为其实我们根本不知道这个网络所生成的编码具体是什么。虽然我们可以通过结果去对比不同的对象,但是要理解它内部的工...

2018-01-22 15:05:00

阅读数:4113

评论数:0

机器学习信息论基础

信息论是应用数学的一个分支,主要研究的是对一个信号能够提供信息的多少进行量化,最初用于研究在一个含有噪声的信道上用离散的字母表来发送消息,指导最优的通信编码等,从这个角度看信息熵是求在最优编码时,最短的平均编码长度?交叉熵是编码不一定最优时(分布的估计不准),平均编码长度?相对熵则是编码不一定最优...

2018-01-22 14:06:15

阅读数:1640

评论数:0

Long Short-Term Memory(LSTM)

LSTM原理,应用。从循环神经网络(Recurrent Neural Network,RNN)可以通过许多不同的方式建立,但就像几乎所有函数都可以被认为是前馈网络,基本上任何涉及循环的函数可以被认为是一个循环神经网络。它的基本结构以及其展开的理解如下图所示: 同一网络被视为展开的计算图,其中每个节...

2017-11-30 11:57:48

阅读数:745

评论数:2

数据预处理备忘

这一块的每一个小点都可以引申出很多的东西,所以先做一个大概,用以备忘,持续更新。 *一般过程: (1)数据采集 数据采集是最基本也很耗时间的工作。比如对于具体的工程事件,需要考虑采集哪些类型的数据?需要哪些属性?需要多少数据支撑?然后再实际去采集这些数据。(2)数据预处理 基于最后期望的目标结果...

2017-10-29 14:48:11

阅读数:577

评论数:0

Convolution Neural Networks(卷积神经网络)

CNN原理,TF应用。受哺乳动物视觉系统的结构启发,人们引入了一个处理图片的强大模型结构,后来发展成了现代卷积网络的基础。所谓卷积引自数学中的卷积运算: S(t)=∫x(t−a)w(a)daS(t) = \int x(t-a)w(a) da 。它的意义在于,比如有一段时间内的股票或者其他的测量数据...

2017-10-22 19:46:53

阅读数:1377

评论数:0

Restricted Boltzmann Machine(限制玻尔兹曼机)

RBM原理.玻尔兹曼机最初是作为一种广义的“联结主义”引入,用来学习向量上的任意概率分布。联结主义(connectionism)的中心思想是,当网络将大量简单计算单元连接在一起时可以实现智能的行为。分布式表示(distributed representation)认为系统每个输入应该由许多特征表示...

2017-10-21 20:41:48

阅读数:3882

评论数:1

Autoencoder(自编码器)

自编码器原理,改进。在神经网络中是监督学习下的操作,那么它又如何应用到无监督学习中呢?一个直观的想法就是让经过了神经网络的输入等于元输入,或者尽量相差不大。这样做不就可以学习到输入数据中隐含着某些特定的结构,甚至通过设计神经元数目来完成数据压缩吗?自编码器由一个编码器(encoder)函数和一个解...

2017-10-21 19:46:19

阅读数:982

评论数:0

Neural Networks(神经网络)

神经网络基本原理,Python实现,改进,TF应用。人类一向善于从大自然中寻找启发,并做出必要的改进来满足某种需要。而人类本身就有很多不可思议的事情,比如大脑。机器学习,学习学习,参考人类本身的学习就是对所见的事物一步一步的总结,一层一层的抽象,而大脑的神经-中枢-大脑的工作过程或许是一个不断迭代...

2017-10-20 17:13:22

阅读数:1695

评论数:0

Principal Component Analysis(主成分分析)

PCA原理,实现,应用。多重境界的理解。通常情况下,在收集数据集时会有很多的特征,这代表着数据是高冗余的表示,但是对于某个工程来说其实可能并不需要那么多的特征。所以就需要给数据进行降维(Dimensionality Reduction)。降维可以简化数据,使数据集更易使用,降低时间开销,而且能减少...

2017-10-19 14:30:33

阅读数:870

评论数:0

PageRank

PageRank原理。当我们在使用Google这种搜素引擎的时候,它往往能以最权威,最完善,最被认同的答案回馈,而且十分安全,让我们不会轻易被钓鱼欺诈的网站所蒙骗。但是对于那么多的网页网站,那么多的答案,它是如何做的这么好的呢?Google的PageRank算法是根据网站的外部链接和内部链接的数量...

2017-10-17 20:38:51

阅读数:543

评论数:0

FP-growth

FP-growth原理,Python实现。Apriori易于编码实现,而且通过Apriori规则减少了计算量,但在大数据下它运行的还是太慢了。于是基于Apriori的频繁模式增长(Frequent-Pattern Growth,FP-growth)算法出现了,它只需要对数据库进行两次遍历,所以能够...

2017-10-17 15:44:01

阅读数:826

评论数:2

Apriori

Apriori原理,Python实现。之前总结的典型关联分析是目标通过计算数据间的相关系数来寻找多维度数据的关系,但直观来讲,在实际生活中如果某一件事总是和另一件事同时出现,那么这两件事之间一定是有某种关系的,比如著名的啤酒和尿布。那么如何来寻找这种关系呢?既然是“同时出现”,那么关注点就应该着眼...

2017-10-17 14:42:05

阅读数:919

评论数:0

Canonical Correlation Analysis(典型关联分析)

CCA原理,应用。关联分析,从线性回归开始! 同样是找样本之间的关系,在线性回归中是找通过拟合找出x和y的关系,当有多个维度时,也是一样找出Y=WX就可以了,但是这样我们会发现一个事实,那就是这个式子所代表的意义是Y的每个特征都于X所有的特征相关联,而它本身之间却没有联系。回归原点,如果将X和Y同...

2017-10-16 20:37:28

阅读数:1205

评论数:0

其他聚类

基于网格的方法(grid-based methods),基于模型方法,模糊方法,还有所有重要的聚类算法在sklearn的大整合应用.....................

2017-10-15 17:38:20

阅读数:568

评论数:0

Spectral Clustering(谱聚类)

谱聚类原理,应用。是一种基于图论的聚类方法!!它将带权无向图划分为两个或两个以上的最优子图,使子图内部相似,而子图间相异,依然是很正统的聚类思想。这个思想乍看很简单,怎么度量相似?度量之后又如何进行划分?相似度度量: 普通的kNN度量方法?相近则权重大,相远则权重小。不过在实际应用中往往采用的全链...

2017-10-15 16:46:20

阅读数:3332

评论数:0

Hierarchical Clustering(层次聚类)

层次聚类原理:唔?排序的图?分治?没错,与原型聚类和密度聚类不同,层次聚类试图在不同的“层次”上对样本数据集进行划分,一层一层地进行聚类。就划分策略可分为自底向上的凝聚方法(agglomerative hierarchical clustering),比如AGNES。自上向下的分裂方法(divis...

2017-10-15 13:27:04

阅读数:4093

评论数:3

Density-Based Spatial Clustering of Applications with Noise(DBSCAN密度聚类)

DBSCAN原理,应用。基于密度的聚类(density-based clustering) 与之前的基于距离的K-means和GMM不同,此类算法意在通过样本分布的紧密程度确定聚类结构。通常情况下它是基于一组“邻域”(neighborhood)参数来刻画样本分布的紧密程度,通过考虑样本之间的可连接...

2017-10-15 12:16:53

阅读数:702

评论数:0

Mixture of Gaussian(高斯混合原型聚类)

高斯混合聚类原理,应用。高斯混合模型(Gaussian Mixture Model ,GMM)也是原型聚类,和上一篇总结的K-means和LVQ一样,不过与它们不同的是,GMM没有想用原型向量来刻画聚类结构的不同。因为比如用k-means算法解决聚类问题非常简单,将数据聚为一个一个的点,但这样往往...

2017-10-15 11:16:08

阅读数:3069

评论数:3

K-means(K均值原型聚类)

K-means原理,python实现,改进,sklearn应用,SPSS应用。所谓物以类聚,人以群分。相似的人们总是相互吸引在一起。数据也是一样。在kNN中,某个数据以与其他数据间的相似度来预测其标签,而K-means是一群无标记数据间的因为自我相似的聚拢。显而易见,K-means的目标为簇内密集...

2017-10-14 18:07:05

阅读数:1239

评论数:0

Expectation-Maximum(EM算法)

EM算法原理,深度理解。首先它是解决含隐变量(latent variable)情况下的参数估计问题,而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,虽然通过梯度下降等优化方法也可以求解,但如果隐变量个数太多,将会带来指数级的运算。不过我们能知道在隐变量...

2017-10-14 17:44:54

阅读数:2966

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭