![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 79
peterchan88
这个作者很懒,什么都没留下…
展开
-
混淆矩阵(Confusion Matrix)分析
ContentConfusionMatrixExampleTalbe ofconfusionPreference Confusion Matrix在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matchin转载 2017-07-13 20:23:17 · 3285 阅读 · 0 评论 -
K-Means聚类算法以及扩展算法K-Modes、K-Prototype
k-means聚类算法是一种简单易行,时间复杂度低的聚类算法,特别是针对大规模的数据集。但其只能处理数值属性限制了他的应用范围,它的具体算法步骤如下:1.确立最终聚类处理得到簇的个数,如果有先验知识,如知道一个数据集为有3类,则可设k=3。如果不清楚,有一些指导性方法可确定估计值;2.选取k条初始记录作为质心,k条记录的欧式具体尽量大,说明记录的相关性低,提高聚类效果;3.转载 2017-11-03 10:07:26 · 10094 阅读 · 1 评论 -
数据挖掘十大算法--K-均值聚类算法
一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。 设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:转载 2017-11-03 09:48:57 · 5665 阅读 · 0 评论 -
隐马尔科夫模型(一)
什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能转载 2017-08-29 19:35:24 · 454 阅读 · 0 评论 -
隐马尔科夫模型(二)
作者:henry链接:https://www.zhihu.com/question/20962240/answer/64187492来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。隐形马尔可夫模型,英文是 Hidden Markov Models,所以以下就简称 HMM。既是马尔可夫模型,就一定存在马尔可夫链,该马尔可夫链服从马尔可夫性质:即无转载 2017-08-29 19:36:55 · 621 阅读 · 0 评论 -
数据标准化/归一化normalization
这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。基础知识参考:[均值、方差与协方差矩阵 ][矩阵论:向量范数和矩阵范数 ]数据的标准化(normalization)和归一化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处转载 2017-07-27 14:53:12 · 6964 阅读 · 0 评论 -
分类中数据不平衡问题的解决经验
问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息转载 2017-07-27 09:20:43 · 643 阅读 · 1 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http://bubblexc.com/y2011/148/)。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。# ROC曲线需要提前说明的是,我们这里只转载 2017-08-08 20:10:41 · 271 阅读 · 0 评论 -
交叉验证(Cross Validation)
假设我们需要从某些候选模型中选择最适合某个学习问题的模型,我们该如何选择?以多元回归模型为例:,应该如何确定k的大小,使得该模型对解决相应的分类问题最为有效?如何在偏倚(bias)和方差(variance)之间寻求最佳的平衡点?更进一步,我们同样需要知道如何在加权回归模型中选择适当的波长参数,或者在基于范式的SVM模型中选择适当的参数C?我们假设模型集合为有限集,我们的目的就是从这d个模型转载 2017-07-30 22:11:40 · 858 阅读 · 0 评论 -
中文情感分析语料库
中文情感分析语料库http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93中文情感分析的语料库非常少,这五个中文语料库是我在网上的搜集的。转载 2017-11-03 16:20:12 · 8078 阅读 · 0 评论