2018年02月_fjssharpsword

12月 10月 09月 08月 07月 05月 04月 03月 02月 01月

原创高阶奇异值分解(HOSVD)理解

在基于情境上下文的推荐系统中，HOSVD是常用方法，这里通过一篇文章简单理解下HOSVD。1、适用场景：This decomposition plays an important role in various domains, such as:? Spectral analysis,? Non-linear modeling,? Communication and Radar processin...

2018-02-23 12:59:47 10983 3

原创受限玻尔兹曼机（RBM）理解

受限玻尔兹曼机（RBM）多见深度学习，不过笔者发现推荐系统也有相关专家开始应用RBM。实际上，作为一种概率图模型，用在那，只要场景和数据合适都可以。有必要就RBM做一个初步了解。1、 RBM定义RBM记住三个要诀：1）两层结构图，可视层和隐藏层；2）同层无边，上下层全连接；3）二值状态值，前向反馈和逆向传播求权参。定义如下：RBM包含两个层，可见层（visible layer）和隐藏层（hidde...

2018-02-23 11:30:31 31445 2

原创【正一专栏】巴萨艰难收获一场平局

巴萨艰难收获一场平局原创 2018-02-21 九天九天时空欧冠八分之一淘汰赛首回合巴萨客场挑战切尔西，在下半场落后的情况下，依靠梅西的进球艰难扳平了平局，收获了一个宝贵的客场进球，为次回合在诺坎普的决战赢得了生机。切尔西一直是巴萨的苦主，尤其是在其斯坦福主场，巴萨从来就没在这里取胜过，而梅西面对切尔西十年也没有打进一粒进球。对于做客的比赛巴萨能取得进球，守住一个平局就是赛前最大的希望。巴萨最近...

2018-02-22 11:47:43 396

原创梯度下降优化算法综述

参考：《An overview of gradient descent optimization algorithms》梯度下降在机器学习，尤其深度学习中无疑占据最核心的位置。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。梯度下降算法是通过沿着目标函数J(θ)参数的梯度(一阶导数)相反方向−∇θJ(θ)来不断更新模型参数来到达目...

2018-02-13 11:22:48 389

原创泰勒级数的理解

泰勒级数：用多项式函数逼近光滑函数。泰勒级数的原理出于很朴素的想法：把一切函数表达式都转化为多项式函数来近似，尤其是复杂函数。通俗的理解：把质的困难转化成量的复杂。展开前求解函数的值很困难，展开后是幂函数的线性组合，虽然有很多很多项，但是每一项都是幂函数，因此每一项都容易求解。于是只要对展开后的求和，就能得到展开前的函数的值。机器学习算法的本质上是优化问题求解，如梯度下降、牛顿法、共轭梯度法等常见...

2018-02-13 10:56:36 4726

原创【数据挖掘知识点七】相关与回归分析

相关与回归分析客观现象之间的数量联系存在两种不同类型：一种是函数关系，另一种是相关关系。当一个或几个变量取一定的值时，另一个变量有确定值与之对应，这种关系称为确定性的函数关系，一般把作为影响因素的变量称为自变量，把发生对应变化的变量称为因变量。当一个或几个相互联系的变量取一定数值时，与之相对应的另一变量的值虽然不确定，但它仍按某种规律在一定的范围内变化，变量间的这种相互关系，称为具有不确定性的相关...

2018-02-12 19:48:15 4734

原创【数据挖掘知识点六】假设检验

假设检验假设检验，事先对总体的参数或总体分布形式作出一个假设，然后利用抽取的样本信息去判断这个假设（原假设）是否合理，即判断总体的真实情况与原假设是否存在显著的系统性差异，故此也称为显著性检验。一个完整的假设检验过程，包括以下几个步骤：1）提出假设；2）构造适当的检验统计量，并根据样本计算统计量的具体数值；3）规定显著性水平，建立检验规则；4）作出判断。各步骤的内容如下：1、原假设和备择假设首先对...

2018-02-12 17:45:46 2259

原创【数据挖掘知识点五】层次聚类方法的理解

对于同是基于距离的原型聚类和层次聚类，层次聚类具有更好的解释性，同时对于先验簇类数k的超参设定，更有利于数据分布的探索。不过基于距离的聚类，面临同样的问题是距离选择，实际上我更想拓展的是多属性下，单个属性的距离和整个样本的距离是否有更多的研究点。Anyway，关于层次聚类的理解，转自网络中比较清晰的一篇文章。层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类...

2018-02-12 10:12:31 918 2

原创 Jacobian矩阵和Hessian矩阵的理解

深度学习中梯度向量的计算，Jacobian矩阵和Hessian矩阵是基础的知识点。求微分其实就是线性化，导数其实就是线性空间之间的线性变换，Jaocibian矩阵本质上就是导数。比如，映射在处的导数就是在处的切空间到在处的切空间之间的线性映射。切空间都是矢量空间，都有基底，所以这个线性变换就是矩阵。在欧氏空间子空间的开集上，切空间就是某个，比如实轴上的切空间就是，曲面上的切空间为。这样一想，函数的...

2018-02-11 11:16:54 7144 4

原创【数据挖掘知识点四】参数估计

参数估计就是用样本统计量去估计总体的未知参数（或参数的函数），如估计总体均值、估计总体比率和总体方差等等。参数估计有两种最基本形式：点估计和区间估计。点估计是用一个数值作为未知参数θ的估计值，而区间估计是给出具体的上限和下限，把θ包括在这个区间内。点估计，主要有矩估计法和最大似然统计法。矩估计法是用样本矩去估计总体矩（或用样本矩的函数去估计总体矩的相应函数）的一种估计方法，由此获得的估计量称作矩估...

2018-02-10 10:50:23 956

原创最大似然估计MLE和最大后验估计MAP理解

1、频率学派和贝叶斯派频率学派认为参数是固定而未知的，关心似然函数。贝叶斯派认为参数是随机的有分布的，关心后验分布。2、MLE、MAP公式3、参数估计-MLE4、参数估计-MAPMAP与MLE最大的不同在于p(参数)项，MAP将先验知识加入，优化损失函数。5、MLE、MAP、Bayesian统一理解ML（最大似然估计）：给定一个模型的参数，然后试着最大化p(D|参数)。即给定参数的情况下，看到样本...

2018-02-09 13:11:08 1251

原创【数据挖掘笔记十三】数据挖掘的发展趋势和研究前沿

13.数据挖掘的发展趋势和研究前沿1、挖掘复杂数据类型，包括挖掘序列数据，如符合序列和生物学序列；挖掘图和网络；挖掘其他类型的数据，包括时间空间数据、信息物理系统数据、多媒体数据、文本和web数据，以及数据流。2、数据分析提出广泛认可的统计学方法，如回归、广义线性模型、方差分析、混合效应模型、因素分析、判别分析、生存分析和质量控制。3、数据挖掘的理论基础，基于数据归约、数据压缩、概率统计理论、微观...

2018-02-08 17:30:14 8886

原创【数据挖掘笔记十二】离群点检测

12.离群点检测离群点检测或异常检测，是找出其行为很不同于预期对象的过程。这种对象称为离群点或异常。离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据，而离群点检测则试图捕获显著偏离多数模式的异常情况。12.1 离群点和离群点分析离群点显著不同于其他对象。离群点类型包括全局离群点、情境离群点、集体离群点。离群点检测的挑战来自：正常对象和离群点的有效建模、针对应用的...

2018-02-08 17:29:29 5786 6

原创【数据挖掘笔记十一】高级聚类分析

11.高级聚类分析11.1 基于概率模型的聚类研究一个对象属于多个簇的聚类主题。1）模糊簇模糊集S是整体对象集X的一个子集，允许X中的每个对象都具有一个属于S的0到1之间的隶属度。给定对象的集合，一个簇就是对象的一个模糊集，这种簇就是模糊簇，一个聚类包含多个模糊簇。模糊聚类就是划分模糊簇的过程。对象隶属于模糊簇的隶属度，可以用对象与其被指派到的簇的中心之间的距离或相似度来衡量。由于一个对象可能参...

2018-02-08 16:18:54 1963 2

原创【数据挖掘笔记十】聚类分析：基本概念和方法

1）10.聚类分析：基本概念和方法聚类是一个把数据对象集划分成多个组或簇的过程，使得簇内的对象具有很高的相似性，但与其他簇中的对象很不相似。相异性和相似性根据描述对象的属性值评估，涉及到距离度量。10.1 聚类分析聚类分析把一个数据对象（或观测）划分子集的过程。由聚类分析产生的簇的集合称做一个聚类。聚类分析用来洞察数据的分析，观察每个簇的特征，将进一步分析集中在特定的簇集合上。聚类分析也可作为其他...

2018-02-08 12:56:39 6201

原创【数据挖掘笔记九】分类：高级方法

9.分类：高级方法9.1 贝叶斯信念网络贝叶斯信念网络是一种概率的图模型，不假定类条件独立性，说明联合条件概率分布，允许在变量的子集间定义类条件独立性，提供一种因果关系的图形模型，可以在其上进行学习。贝叶斯信念网络由两个成分定义，有向无环图和条件概率表的集合。网络变量可以是可观测的，或隐藏在所有或某些训练元组中。隐藏数据的情况也称为缺失值或不完全数据。如果网络拓扑已知并且变量是可观测的

2018-02-07 20:27:20 853

原创【数据挖掘笔记八】分类：基本概念

8.分类：基本概念分类是一种重要的数据分析形式，它提取刻画重要数据类的模型，这种模型称为分类器，预测分类的（离散的、无序的）类标号。8.1 基本概念分类和回归（数值预测）是预测问题的两种主要类型。数据分类是一个两阶段过程，包括学习阶段构建分类模型和分类阶段使用模型预测给定数据的类标号。学习阶段由于提供了每个训练元组的类标号，也称为监督学习，不同于无监督学习，每个训练元组的类标号是未

2018-02-07 18:02:26 2780

原创【数据挖掘笔记七】高级模式挖掘

7.高级模式挖掘模式挖掘是比频繁模式挖掘更一般的术语，前者还涵盖了稀有模式和负模式。 7.1 模式挖掘：一个路线图模式挖掘的研究关注三个方面：所挖掘的模式类型、挖掘方法和应用。模式挖掘研究的一般路线图： 7.2 多层、多维空间中的模式挖掘多层关联涉及多个抽象层的概念。多维关联涉及多个维或谓词。量化关联涉及其值之间有序的数值属性。负模式显示项之间的

2018-02-07 16:51:02 3282