分类和聚类
WX Chen
实用技术总结,前沿科技分享,欢迎交流技术和业务
展开
-
贝叶斯网络(又称贝叶斯信念网络或信念网络)
朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)一个贝叶斯网络定义包括一个有向无环图(DAG)和一个条件概率表集合。DAG中每一个节点表示一个随机变量,可以是可直接观测变量或隐藏变量,而有向边表示随机变量间的条件依赖;条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。原创 2017-07-01 20:57:17 · 3730 阅读 · 0 评论 -
Matlab使用KNN分类
KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋...原创 2019-06-10 09:18:01 · 11586 阅读 · 4 评论 -
logistic分类(logistic回归 LR)
几乎所有的教材都是从logistic分类开始的,因为logistic分类实在太经典,而且是神经网络的基本组成部分,每个神经元(cell)都可以看做是进行了一次logistic分类。所谓logistic分类,顾名思义,逻辑分类,是一种二分类法,能将数据分成0和1两类。logistic分类的流程比较简单,主要有线性求和,sigmoid函数激活,计算误差,修正参数这4个步骤。前两部用于判断,后两...原创 2017-08-08 16:39:10 · 617 阅读 · 0 评论 -
PCA 主成分分析
在进行图像的特征提取的过程中,提取的特征维数太多经常会导致特征匹配时过于复杂,消耗系统资源,不得不采用特征降维的方法。所谓特征降维,即采用一个低纬度的特征来表示高纬度。将高纬度的特征经过某个函数映射至低纬度作为新的特征。PCA和LDA区别:PCA是从特征的角度协方差角度: 求出协方差矩阵的特征值和特征向量,然后将特征向量按特征值的大小排序取出前K行组成矩阵P(这个P就是我们原创 2017-09-09 16:27:18 · 312 阅读 · 0 评论 -
层次聚类算法
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度; 2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少转载 2017-08-08 16:32:05 · 679 阅读 · 0 评论 -
KMeans K值以及初始类簇中心点的选取
给定一个合适的类簇指标,比如平均半径或直径,只要我们假设的类簇的数目等于或者高于真实的类簇的数目时,该指标上升会很缓慢,而一旦试图得到少于真实数目的类簇时,该指标会急剧上升。当K取值5时,类簇指标的下降趋势最快,所以K的正确取值应该是5.确定K个初始类簇中心点: 首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心原创 2017-08-08 16:31:17 · 2416 阅读 · 0 评论 -
基于密度的聚类算法
基于距离的聚类算法,如K-Means算法。基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的聚类,这对于带有噪音点的数据起着重要的作用。DBSCAN(Density-Based Spatial Clustering of Application wi原创 2017-08-08 16:30:46 · 1405 阅读 · 0 评论 -
监督学习与无监督学习
监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。监督学习里典型的例子就是KNN、SVM。无监督学习(也有人叫非监督学习,反正都差不多)则是另一种原创 2017-08-08 16:29:58 · 310 阅读 · 0 评论 -
期望最大(EM)算法
在概率模型中寻找参数最大似然估计的算法。em算法是一种迭代算法,用于含有隐变量的参数模型的最大似然估计。应用于数据聚类领域。最大似然估计: (1) 写出似然函数; (2) 对似然函数取对数,并整理; (3) 求导数 ; (4) 解似然方程期望最大算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏原创 2017-08-08 16:29:16 · 897 阅读 · 0 评论 -
k均值聚类(K-means)
分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察原创 2017-08-08 16:28:13 · 541 阅读 · 0 评论 -
高斯混合模型 GMM —— 聚类
混合模型:通过密度函数的线性合并来表示未知模型。为什么提出混合模型,那是因为单一模型与实际数据的分布严重不符,但是几个模型混合以后却能很好的描述和预测数据。高斯混合模型(GMM),说的是把数据可以看作是从数个高斯分布中生成出来的。Mixture Model 本身其实也是可以变得任意复杂的,通过增加 Model 的个数,我们可以任意地逼近任何连续的概率密度分布。 更一原创 2017-08-08 16:27:18 · 1368 阅读 · 0 评论 -
K-近邻(KNN)算法
思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时原创 2017-07-01 21:12:36 · 271 阅读 · 0 评论 -
KNN的距离都有哪些
在KNN算法中,常用的距离有三种,分别为曼哈顿距离、欧式距离和闵可夫斯基距离。闵可夫斯基距离:这里的p值是一个变量,当p=1的时候就得到了曼哈顿距离;当p=2的时候就得到了欧氏距离。切比雪夫距离:当p趋向于无穷大时,曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。原创 2017-07-01 21:11:25 · 3831 阅读 · 0 评论 -
支持向量机(SVM)
支持向量机,其含义是通过支持向量运算的分类器。支持向量机是一个二类分类器。在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。见下图,在一个二维环境中,其中点R,S,G点和其它靠近中间黑线的点可以看作为支持向量,它们可以决定分类器,也就是黑线的具体参数。线性分类:可以理解为在2维空间中,可以通过一条直线来分类。在p维空间中,可以通过一个p原创 2017-07-01 21:09:33 · 516 阅读 · 0 评论 -
朴素贝叶斯分类
朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。 朴素贝叶斯分类的正式定义如下: 1、设为一个待分类项,而每个a为x的一个特征属性。 2、有类别集合。 3、计算。 4、如果,则。 那么现在的关键原创 2017-07-01 21:05:38 · 446 阅读 · 0 评论 -
matlab自带各种分类器的使用示例
K近邻分类器 (KNN)mdl = ClassificationKNN.fit(train_data,train_label,'NumNeighbors',1);predict_label = predict(mdl, test_data);原创 2019-07-30 11:57:48 · 1857 阅读 · 0 评论