- 博客(6)
- 收藏
- 关注
原创 机器学习实战第四章-朴素贝叶斯
一,朴素贝叶斯概述基于贝叶斯决策理论的分类方法,本质是一种线性分类,通过最大后验概率来找到最有可能的类别。(而最大后验概率等价于使用0-1损失函数的期望风险最小化)。 优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。二,朴素贝叶斯原理贝叶斯公式如下: p(c|x)=p(x|c)p(c)p(x)p(c...
2018-02-21 18:11:12 341
原创 机器学习实战第十四章-利用SVD简化数据
一,什么是SVDSVD(Singular Value Decomposition):奇异值分解。 基本知识如下图所示: 其中U和V都可以作为高维转低维的转换矩阵将原始高维冗余数据转换到一个低维无冗余语义空间中,从而实现数据的降维。SVD的应用优点:简化数据,去除噪声,提高算法的结果。缺点:数据的转换可能难以理解。适用数据类型:数值型数据。应用:LSA/LSI(隐性语...
2018-02-20 19:53:31 642 2
原创 机器学习实战第十三章-利用PCA来简化数据
一,降维技术1,降维的作用使得数据集更易使用。降低算法的计算开销。去除噪声。使得结果易懂。2,降维技术的方法PCA因子分析:我们假设观察数据的生成中有一些观测不到的隐变量,观测数据是这些隐变量和噪声的线性组合。隐变量的数目少的话就可以通过隐变量实现降维。独立成分分析:类似因子分析,它假设观察数据是由隐含的几个数据源生成(或者说是从某几种数据分布中采样生成)。
2018-02-05 21:42:49 655
原创 方差、协方差、协方差矩阵和相关系数(全称皮尔逊相关系数)
一,方差方差衡量的是当我们对x依据它的概率分布进行采样时,随机变量x的样本值会呈现多大的差异,或者说方差是对随机变量x取值集中或分散的一种对量。1,方差公式Var(X)=E((X−E(X))2)=E(X2)−(E(X)2)Var(X)=E((X−E(X))2)=E(X2)−(E(X)2)Var(X) =E((X-E(X))^2) =E(X^2)-(E(X)^2) 标准差为Va...
2018-02-05 12:13:16 10844
原创 机器学习实战第二章-k近邻算法(包含一些python绘图基础)
一,k近邻算法概述k近邻算法是一种简单有效但并不高效的非线性分类方法。优点:精度高,对异常值不敏感、无数据输入假设。缺点:计算复杂度高、空间复杂度高。使用数据范围:离散型和连续型。二,k近邻算法的核心步骤对未知类别属性的数据集中的每一个点依次执行以下操作: 1. 计算已知数据集中的点与当前点之间的距离。 2. 按照距离递增次序排序。 3. 选取与当前点距离最...
2018-02-04 11:33:26 618
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人