数据挖掘
Scrat000
这个作者很懒,什么都没留下…
展开
-
拉普拉斯平滑处理
转自:点击打开链接背景:为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。拉普拉斯的理论支撑 为了解决零概率的问题,法国数学家拉普拉斯...转载 2018-05-18 12:21:58 · 1728 阅读 · 0 评论 -
主成分分析PCA-降维的必要性-协方差矩阵-特征值-特征向量
原文来自:博客园(华夏35度)http://www.cnblogs.com/zhangchaoyang 作者:Orisun降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽...转载 2018-05-23 11:04:20 · 2296 阅读 · 0 评论 -
二元分类效果的评估方法
原文地址:https://blog.csdn.net/quliulangle/article/details/76577020效果评估是模型选择和算法设计的重要步骤,知道评估优劣才能选择最佳的模型和算法,本节介绍一些有关评估方法的定义,凡是在统计或大数据领域都用得到 真阳性true positives, TP真阴性true negatives, TN假阳性false positives, FP假阴...转载 2018-05-21 16:31:05 · 909 阅读 · 0 评论 -
线性回归与逻辑回归
原文地址:https://blog.csdn.net/ppn029012/article/details/8775597机器学习可以解决很多问题,其中最为重要的两个是 回归与分类。 这两个问题怎么解决, 它们之间又有什么区别呢? 以下举几个简单的例子,以给大家一个概念1. 线性回归回归分析常用于分析两个变量X和Y 之间的关系。 比如 X=房子大小 和 Y=房价 之间的关系, X=(公园人流量,公园...转载 2018-05-21 16:24:56 · 1025 阅读 · 0 评论 -
Kmeans、Kmeans++和KNN
原文地址:https://blog.csdn.net/chlele0105/article/details/12997391K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程可以用下图表示: 如图所示,数据样本用圆点表示...转载 2018-05-20 16:42:09 · 401 阅读 · 0 评论 -
标准化、协方差、相关系数和协方差矩阵
原文地址:https://blog.csdn.net/wanz2/article/details/53036543笔者在学习主成分分析(PCA)的时候接触到了协方差矩阵的应用。这部分知识有些遗忘了,因此重新巩固一下,记录在此,希望能帮助到有需要的同学。1. 概率论中的标准化、协方差、相关系数和协方差矩阵概念1.1 随机变量的部分数字特征 假设有二维随机向量(X,Y)(X,Y)数字特征意义描述E(...转载 2018-05-20 15:18:03 · 12951 阅读 · 0 评论 -
怎么跟你奶奶解释PCA
原文地址:https://yjk94.wordpress.com/2016/11/11/pca-to-layman/前言PCA(principal component analysis)是一个遍地可见的处理数据的方法,但是理解起来好像有点困难。 爱因斯坦说,如果没法跟你奶奶解释清楚一个东西,你就还没算真正理解它。看完这篇“教程”后,不妨回家试一试:-)正文想象下你正在家庭聚餐.great-gran...转载 2018-05-19 21:08:52 · 502 阅读 · 1 评论 -
PCA ( 主成分分析) 详解
原文地址:https://blog.csdn.net/lijihw_1022/article/details/46622667一、 简介PCA( Principal Components Analysis) 即主成分分析, 是图像处理中经常用到的降维方法, 大家知道, 我们在处理有关数字图像处理方面的问题时, 比如经常用的图像的查询问题,在一个几万或者几百万甚至更大的数据库中查询一幅相近的图像。 ...转载 2018-05-19 20:20:23 · 972 阅读 · 0 评论 -
PCA数据降维:从代码到原理的深入解析
原文地址:点击打开链接一、什么是PCA:摘用一下百度百科的解释 PCA(Principal Component Analysis),主成分分析,是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。二、PCA的用途及原理:用途:数据降维原理:线性映射(或线性变换),简单的来说就是将高维空间数据投影到低维空间上,那么在数据分析上,我们是将数据的主...转载 2018-05-19 20:07:06 · 1445 阅读 · 0 评论 -
利用朴素贝叶斯模型识别垃圾邮件
原文地址:http://blog.csdn.net/gane_cheng/article/details/53219332http://www.ganecheng.tech/blog/53219332.html (浏览效果更好)在学习,工作,生活中,我们经常会遇到各种分类问题。让你猜测一个身高2.16的人的职业,你一般会猜测他是篮球运动员。收到一条含有“中奖”词语的短信,会怀疑是一条垃圾短信。新闻...转载 2018-05-18 13:13:19 · 1898 阅读 · 0 评论 -
sklearn.model_selection.KFold
https://blog.csdn.net/kancy110/article/details/74910185/转载 2018-07-04 13:01:06 · 700 阅读 · 0 评论