2017年10月_上杉翔二

原创 Data Mining Pipeline（数据挖掘实践指南--特征发现，处理与评估）

这一块的每一个小点都可以引申出很多的东西，所以先做一个大概，用以备忘，持续更新。 *一般过程：（1）数据采集数据采集是最基本也很耗时间的工作。比如对于具体的工程事件，需要考虑采集哪些类型的数据？需要哪些属性？需要多少数据支撑？然后再实际去采集这些数据。（2）数据预处理基于最后期望的目标结果，对于当前的数据，如何处理当前的数据类型，比如如何处理有序变量？如何处理无序变量？数据可信吗？有.............

2017-10-29 14:48:11 2796

原创 Convolution Neural Networks（卷积及其各种卷积）

CNN原理，TF应用。受哺乳动物视觉系统的结构启发，人们引入了一个处理图片的强大模型结构，后来发展成了现代卷积网络的基础。所谓卷积引自数学中的卷积运算： S(t)=∫x(t−a)w(a)daS(t) = \int x(t-a)w(a) da 。它的意义在于，比如有一段时间内的股票或者其他的测量数据，显然时间离当下越近的数据与结果越相关，作用越大，所以在处理数据时可以采用一种局部加权平均的方法，这就叫卷积，其.....

2017-10-22 19:46:53 7438

原创 Restricted Boltzmann Machine（限制玻尔兹曼机 RBM）

RBM原理.玻尔兹曼机最初是作为一种广义的“联结主义”引入，用来学习向量上的任意概率分布。联结主义（connectionism）的中心思想是，当网络将大量简单计算单元连接在一起时可以实现智能的行为。分布式表示（distributed representation）认为系统每个输入应该由许多特征表示的，并且每个特征应参与多个可能输入的表.................

2017-10-21 20:41:48 16363 4

原创 Autoencoder（自编码器）

自编码器原理，改进。在神经网络中是监督学习下的操作，那么它又如何应用到无监督学习中呢？一个直观的想法就是让经过了神经网络的输入等于元输入，或者尽量相差不大。这样做不就可以学习到输入数据中隐含着某些特定的结构，甚至通过设计神经元数目来完成数据压缩吗？自编码器由一个编码器（encoder）函数和一个解码器（decoder）函数组合而成。编码器函数将输入数据转换为一种不同的表示，而解码器函数则将这个新的表示转换....

2017-10-21 19:46:19 4442

原创 Neural Networks（神经网络基础与调参）

神经网络基本原理，Python实现，改进，TF应用。人类一向善于从大自然中寻找启发，并做出必要的改进来满足某种需要。而人类本身就有很多不可思议的事情，比如大脑。机器学习，学习学习，参考人类本身的学习就是对所见的事物一步一步的总结，一层一层的抽象，而大脑的神经-中枢-大脑的工作过程或许是一个不断迭代，不断抽象的过程，从原始的信号，做低级的抽象，逐渐向高级抽象迭代.......

2017-10-20 17:13:22 5861 1

原创 Dimensionality Reduction（主成分分析PCA与线性判别分析LDA）

PCA原理，实现，应用。多重境界的理解。通常情况下，在收集数据集时会有很多的特征，这代表着数据是高冗余的表示，但是对于某个工程来说其实可能并不需要那么多的特征。所以就需要给数据进行降维（Dimensionality Reduction）。降维可以简化数据，使数据集更易使用，降低时间开销，而且能减少一部分噪音的影响，使最后的效果变好。比如上图中，如果进行降维后再进行分类，将会易于处理.........

2017-10-19 14:30:33 4643

原创图技术基础（图查询，图计算，图表示，图特征，PageRank）

PageRank原理。当我们在使用Google这种搜素引擎的时候，它往往能以最权威，最完善，最被认同的答案回馈，而且十分安全，让我们不会轻易被钓鱼欺诈的网站所蒙骗。但是对于那么多的网页网站，那么多的答案，它是如何做的这么好的呢？Google的PageRank算法是根据网站的外部链接和内部链接的数量和质量来衡量网站的价值，这个概念引自学术中一篇论文的被引述的频度–即被别人引述的次数越多，一般判断这篇论......

2017-10-17 20:38:51 2392

原创 FP-growth

FP-growth原理，Python实现。Apriori易于编码实现，而且通过Apriori规则减少了计算量，但在大数据下它运行的还是太慢了。于是基于Apriori的频繁模式增长（Frequent-Pattern Growth，FP-growth）算法出现了，它只需要对数据库进行两次遍历，所以能够显著加快发现频繁项集的速度，比Apriori的性能要好上2个数量级以上！！为什么能这么快？原因在于它采用了一些不同的技.

2017-10-17 15:44:01 1356 2

原创关联分析（Apriori）

Apriori原理，Python实现。之前总结的典型关联分析是目标通过计算数据间的相关系数来寻找多维度数据的关系，但直观来讲，在实际生活中如果某一件事总是和另一件事同时出现，那么这两件事之间一定是有某种关系的，比如著名的啤酒和尿布。那么如何来寻找这种关系呢？既然是“同时出现”，那么关注点就应该着眼于这些“频繁项集合”（frequent item sets，经常在一起的物品集合）..........

2017-10-17 14:42:05 2611

原创 Canonical Correlation Analysis（典型关联分析）

CCA原理，应用。关联分析，从线性回归开始！同样是找样本之间的关系，在线性回归中是找通过拟合找出x和y的关系，当有多个维度时，也是一样找出Y=WX就可以了，但是这样我们会发现一个事实，那就是这个式子所代表的意义是Y的每个特征都于X所有的特征相关联，而它本身之间却没有联系。回归原点，如果将X和Y同等对待，考虑他们之间的相关性可以吗？可以的........

2017-10-16 20:37:28 4688 2

原创学生成绩预测和学业表现预警（EERNNM，GHANN-EC，HHA）

生成绩预测通过拿到学生的历史数据，如成绩，社交，其他行为等，预测学生的GPA，某课程的成绩，或者毕业后的发展预测等等。学生学业预警同上也是通过各种收集到数据，预测学生的状态是否处于异常，该任务的特点是如何做到及时的反馈。

2017-10-15 17:38:20 4646 2

原创 Spectral Clustering（谱聚类和其他）

谱聚类原理，应用。是一种基于图论的聚类方法！！它将带权无向图划分为两个或两个以上的最优子图，使子图内部相似，而子图间相异，依然是很正统的聚类思想。这个思想乍看很简单，怎么度量相似？度量之后又如何进行划分？相似度度量：普通的kNN度量方法？相近则权重大，相远则权重小。不过在实际应用中往往采用的全链接方法，即利用高斯分布来进行权重的赋予...........

2017-10-15 16:46:20 8611 1

原创 Hierarchical Clustering（层次聚类）

层次聚类原理：唔？排序的图？分治？没错，与原型聚类和密度聚类不同，层次聚类试图在不同的“层次”上对样本数据集进行划分，一层一层地进行聚类。就划分策略可分为自底向上的凝聚方法（agglomerative hierarchical clustering），比如AGNES。自上向下的分裂方法（divisive hierarchical clustering），比如DIANA。AGNES先将所有样本的每个点.....

2017-10-15 13:27:04 46668 7

原创 Density-Based Spatial Clustering of Applications with Noise（DBSCAN密度聚类）

DBSCAN原理，应用。基于密度的聚类（density-based clustering）与之前的基于距离的K-means和GMM不同，此类算法意在通过样本分布的紧密程度确定聚类结构。通常情况下它是基于一组“邻域”（neighborhood）参数来刻画样本分布的紧密程度，通过考虑样本之间的可连接性，并介此不断扩展得到结果。参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中，ϵ描述了某一样.....

2017-10-15 12:16:53 4663

原创 Mixture of Gaussian（高斯混合原型聚类）

高斯混合聚类原理，应用。高斯混合模型（Gaussian Mixture Model ，GMM）也是原型聚类，和上一篇总结的K-means和LVQ一样,不过与它们不同的是，GMM没有想用原型向量来刻画聚类结构的不同。因为比如用k-means算法解决聚类问题非常简单，将数据聚为一个一个的点，但这样往往比较粗糙，不适用于很多数据集。所以是采用概率模型来表达原型，即通过统计得到每个样本点属于各个类的概率.......

2017-10-15 11:16:08 8984 4

原创 K-means（K均值原型聚类）

K-means原理,python实现，改进，sklearn应用，SPSS应用。所谓物以类聚，人以群分。相似的人们总是相互吸引在一起。数据也是一样。在kNN中，某个数据以与其他数据间的相似度来预测其标签，而K-means是一群无标记数据间的因为自我相似的聚拢。显而易见，K-means的目标为簇内密集而簇间稀疏。简单来说就是首先先确定k个初始点作为质心，然后将数据集中的每一个点分配到一个距其最近的簇中..........

2017-10-14 18:07:05 10326

原创 Expectation-Maximum（EM算法）

EM算法原理，深度理解。首先它是解决含隐变量（latent variable）情况下的参数估计问题，而求模型的参数时一般采用最大似然估计，由于含有了隐含变量，所以对似然函数参数求导是求不出来的，虽然通过梯度下降等优化方法也可以求解，但如果隐变量个数太多，将会带来指数级的运算。不过我们能知道在隐变量能观察到的情况下，最大似然法很简单，或者在知道参数的情况下，计算它的期望值也很容易.........

2017-10-14 17:44:54 8069 4

原创 Ensemble Learning（集成学习--AdaBoost，GBDT，Xgboost等）

集成学习原理，Python实现，应用。所谓兼听则明，偏信则暗。集成学习本身并不是一个单纯的新算法，它的目的是通过结合多个其他的机器学习模型来完成某个一个任务以提升最终结果的准确率，即三个臭皮匠赛过诸葛亮。从该思想出发自然可以想到，如何得到多个机器学习模型？又如何整合？基于此，集成学习也就有了多种形态。如果对不同类别.......

2017-10-14 14:09:53 3658

原创 Support Vecor Machine（SVM支持向量机）

支持向量机原理，Python实现，应用。在感知机的最后，说到它必须是在线性可分的条件下使用，正因为这样，满足条件的超平面可能会有多条，那么哪一条是最好的呢？直观上看，应该去找“正中间”的那条，因为它尽可能的讲样本分开，而且不易受到局部的干扰。首先和感知机一样，划分超平面的线性方程可为........

2017-10-14 09:43:35 1622

原创 Perceptron（感知机与径向基）

感知机原理。为了使线性回归能用于分类，引入了logistic函数映射成比率来进行分类。但是从人的直观视角来看，对于如上图所示的点，能否在空间中直接就找到一条分割线呢？感知机学习的目标就是求得一个能够将训练数据集中正负实例完全分开的分类超平面。那么如何找这个超平面？......

2017-10-13 17:42:38 1492

原创 Logistic Regression（逻辑回归）

Logistic回归思想，Python实现，应用。Logistic 回归是与线性回归相对应的一种分类方法，是一种广义线性回归模型(generalized linear model)。该算法的基本概念由线性回归推导而出，比如上图，如果直接尝试线性拟合，然后根据其比率来判断其类别的话........

2017-10-12 19:51:39 2751

原创 Linear Regression（线性回归）

线性回归原理，实现，应用。线性回归应该是机器学习最基本的问题了。它是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析，这种函数是一个或多个称为回归系数的模型参数的线性组合，只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。如果数据集中的变量存在线性关系，那么其就能拟合地非常好。那么如何从一大堆数据里面求出回归方程呢？既然是求“线性回归”，那么我们期....

2017-10-12 18:52:03 9683 1

原创 Bayesian（贝叶斯）

朴素贝叶斯原理，Python实现，改进思路和算法。虽然决策树抽象出了规则，方便了人的理解，但是严格按照决策树来判断新朋友能否成为好朋友感觉很困难，这个可能性能够把握吗？比如我和TA有80%的可能成为好朋友。又或者能将我的朋友们分为“三六九等”吗？....

2017-10-10 17:52:37 4314

原创 Decision Tree（决策树--ID3，C4.5，CART）

决策树基本思想，Python实现，改进算法，sklearn应用，Weka应用。所谓三思而后行，步步为营。决策树无处不在，在生活很常见。就让我继续沿用好朋友这个比方吧。比如，我们如何认定一个人是我们的好朋友呢？别回答我：靠感觉啊！我觉得感觉这种东西不就是经过层层神经元，然后大脑产生的一个信号？在一定程度上也是可以抽象出来的，比如神经网络就是模仿了人脑的某些机制。有关神经网络的部分之后总结...............

2017-10-10 11:36:17 8890 2

原创 k-Nearest Neighbors（k近邻）

kNN原理，Python实现，改进思想及算法，应用。所谓近朱者赤，近墨者黑，物以类聚，人以群分。如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。打个比方，如果与你关系好的（或最相似的）排名前k个好朋友大多数都喜欢机器学习，那么我可以做出预测：你本身是非常喜欢机器学习的......

2017-10-09 20:43:02 10839 4

nakaizura