数据挖掘常用算法
介绍常用的数据挖掘算法
汤姆维赛迪
If you did not know what you want, you could never reach it.
展开
-
Softmax回归
在本文中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,不过后面也会介绍它与深度学习/无监督学习方法的结合。(译者注: MNIST 是一个手写数字识别库,由NYU 的Yan...原创 2019-02-09 15:11:06 · 288 阅读 · 0 评论 -
[机器学习]广义线性模型
指数分布族如果一类分布可以写成如下的形式,那么它就是属于指数分布族的:P(y;η) = b(y)exp(ηTT(y) - a(η)) (1)这里η叫做分布的自然参数(natural parameter),或者叫标准参数(canonical parameter);T(y)是充分统计量( sufficient statistic),对于我们考虑的大多数分布,T(y)=y;然后...原创 2019-02-09 15:08:23 · 426 阅读 · 0 评论 -
极大似然估计和最大后验概率
原创 2018-04-22 11:39:37 · 243 阅读 · 0 评论 -
[数据挖掘]前言
介绍常用的数据挖掘概念和算法:数据离散化:chimerge算法分类:决策树,贝叶斯分类器算法用Java实现,代码及工程文件算法实现原创 2018-03-29 09:11:01 · 262 阅读 · 0 评论 -
[数据挖掘]chimerge算法
数据离散化数据离散化的一种常用方法是依据数据的相关性程度进行离散化,最常见的算法就是ChiMerge算法定义chimerge是基于chi-squre的,监督的,自底向上(合并的)一种数据离散化方法。卡方检验 xyz Ax1y1z1aBx2y2z2b xyzN统计AB属性的独立性:1. 分别计算期望频率,例如(A, x)期望频率为a * x / N2. 计算卡方值k = ((x1 - E(A,x))...原创 2018-03-17 17:23:23 · 2205 阅读 · 0 评论 -
[数据挖掘]决策树ID3和C45
数据分类数据分类就是建立模型把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。这个模型称为分类器,预测分类的(无序,离散)类标号。数据分类通常分为两个过程,学习阶段(模型构建)和分类阶段(预测类标号)。例如下图我们预测客户是否会购买计算机a) 学习过程 b) 分类过程决策树归纳决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取...原创 2018-03-29 21:25:09 · 1317 阅读 · 0 评论