数据挖掘
danjnax
这个作者很懒,什么都没留下…
展开
-
EM算法
EM精妙点: 1.构造jensen不等式(就是那个Q*(P/Q)) 2.利用jensen不等式的等号成立条件寻找Q//Q其实就是条件概率 3.利用存在的Q我们来最大化θ 4.θ知道后我们接着返回2递归找 证明收敛的过程很精妙 从最大似然到EM算法浅解 zouxy09@qq.com http://blog.csdn.net/zouxy09转载 2016-01-20 12:00:44 · 382 阅读 · 0 评论 -
matlba --crosslind
一个简单的K折交叉验证: crosslind('Kfold',8,4);表示我们共有8个样本,要进行4折交叉验证,所谓的4折交叉验证,就是把元素分成四块,分别去其中的一块作为验证的数据,其余的3块作为训练的数据;例如: P_train=[1 2 3 4 5 6 7 8 ]' Indices=crossvalind('Kfold',8,4) Indices =原创 2016-01-20 12:01:25 · 293 阅读 · 0 评论 -
十折交叉验证
英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。 之所以选择将数据集原创 2016-01-20 12:01:45 · 4545 阅读 · 0 评论 -
svm
首先由线性可分的两类类别可由w*x+b=0来实现,我们要找到求解把两类分的最开的那个函数。有这个方程的约束条件又转化为拉格朗日乘子上去最后由SMO求解拉格朗日乘子,对于非线性的情况,利用内积映射,把低维映射到高维上去了,为了防止维度灾难,利用核函数把和内积使得可以用低维运算表达了高维映射,从而在高维中把线性不可分的数据用超平面可分了。加入和松弛变量的SVM可以处理异常点的情况。而这里所谓的SV是指转载 2016-01-20 12:02:18 · 482 阅读 · 0 评论 -
K-means,KNN,贝叶斯,贝叶斯网络
K-means:指定K个中心点,然后把其余点分配给这K个中心点,然后对每个分配后形成的簇求平均得到新的K个中心点,接着分配,知道中心点不在变化; KNN:又叫K近邻,对于已经有类别编号的离散点,当新来一个样本时,通过统计与这个样本最近的K个样本来选择作为新样本的类别,新样本的类别是这K个中同一类别中最多的那个类别; 贝叶斯:通过求各个属性的条件概率得到这个新样本属于某一类别的概率,选择原创 2016-01-20 12:02:40 · 711 阅读 · 0 评论 -
Apriori
Apriori:既是先验知识算法,关联规则是从小到大一点点生成的。有C1->L1->C2->L2->C3->L3.....;Ck是候选集,Lk是k-频繁项集,Ck到Lk的过度通过支持度来筛选; 举例:支持度为2 原始数据: L1中因为C1中4的支持度小于2所以就排除了4,所以L1中没有4;; 同样在2-频繁项集中{1,2}{1,5}支持度小于2,排除;同理可得这样就原创 2016-01-20 12:03:03 · 258 阅读 · 0 评论 -
关联规则
L->R 支持度(support):P(LR)反映样本中的出现频率;置信度(confidence)反映相关性:P(R|L);提升度(lift):P(R|L)/P(R); 平衡度(leverage):P(LR)*P(L)*P(R);可信度(conviction):P(L)*P(R)/P(LR) 对于支持度和置信度,两个是协同的,因为置信度很高的去支持度有可能很小。他们两个同时反映一原创 2016-01-20 12:03:28 · 420 阅读 · 0 评论