大数据管理与分析第八章数据挖掘

黄昏贩卖机

已于 2022-07-25 10:07:03 修改

阅读量221

点赞数

分类专栏：大数据管理与分析文章标签：数据挖掘算法人工智能

于 2022-06-24 20:21:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/greatcoder/article/details/125448888

版权

大数据管理与分析专栏收录该内容

11 篇文章 3 订阅

订阅专栏

data mining

几种距离
K-Means
基于MapReduce的分类算法

几种距离

欧氏距离
在这里插入图片描述
曼哈顿距离

K-Means

局限性

能得到局部最优解，不保证全局最优
相似度计算和比较时的计算量较大

基于MapReduce的分类算法

KNN K-邻接分类并行化算法

总体思想：计算测试样本，到训练样本的距离，选取距离最小的k个，并根据这k个训练样本的标记，并根据k个训练的标记进行加权投票
加权投票模型： y’ = ∑Si*yi/∑Si, k=[0,k-1],Si为取值0-1的相似度数值，yi为选取出的最邻近训练样本的分类标记值

MapReduce并行化设计思路

将测试样本分块后，分布在不同节点上进行处理，将训练样本数据文件放在DistributedCache中共每个节点访问
Map：读出每个此时样本数据 ts(trid,A’,y’）
Map：计算与每个训练样本的相似度 S，保留前K个最大的。
Map：根据前K大的S值，计算 y‘= ∑Si*yi/∑Si, k=[0,k-1] ，输出(trid,y’)
Reduce 阶段直接输出(trid, y’)

朴素贝叶斯分类

$P (Yi ∣ X) = P (Yi) * P (X ∣ Yi) / P (X)$
$\arg\max_{ck} P(Y=ck)\prod_j P(X_j = x_j|Y=ck)$

朴素贝叶斯分类公式
选择的概率最大的y 注意是 P(X|Yi)*P(Yi) ，而不是P(X|Yi)最大

并行化算法设计思路

计算每个分类的频度FYi，以及每个属性值在Yi中出现的频度FxYij
对一个未标记的测试样本X，根据其包含的每个具体属性值xj，根据从训练数据集计算出的FxYij进行求积得到FXYi(即P(X|Yi))，再乘以FYi即可得到X在各个Yi中出现的频度P(X|Yi)P(Yi)，取得最大频度的Yi即为X所属的分类

第一步统计频度

在这里插入图片描述

输出 Yi出现的频度和所有属性 xj 在 Yi中出现的频度

第二步样本分类预测

在这里插入图片描述

基于MapReduce的频繁项集挖掘算法

频繁项可以看作是两个或者多个对象的“亲密”程度，如果同时出现次数很多，可以认为这两个对象是高关联度的
支持度 support=M/N
N是总条目
M是项集出现的次数

在这里插入图片描述
这里的N是4，项集I = {I1,I2}出现次数是2，支持度为 2/4 = 0.5

如果support(I) 不小于设定的阈值，则认为I是一个频繁项集
频繁项集挖掘问题，找出所有的频繁k项集

Apriori算法

在这里插入图片描述

Apriori算法通过多轮迭代的方法来逐步挖掘频繁项集
第一轮迭代中，发现所有的频繁 1 项集
在之后的每一轮迭代中，将前一轮的频繁 k-项集作为本轮迭代的种子项集，由此生成候选 (k+1)-项集
在本轮迭代中，需要计算每个候选(k+1)-项集在事务数据库中的支持度，以找出频繁项集

生成候选项集，任何频繁项集的非空子项集都是频繁的，
非频繁项集的任何超集都是非频繁的

黄昏贩卖机

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据管理与分析第八章数据挖掘

欧氏距离曼哈顿距离局限性MapReduce并行化设计思路P(Yi∣X)=P(Yi)∗P(X∣Yi)/P(X)P(Yi|X) = P(Yi)*P(X|Yi) / P(X)P(Yi∣X)=P(Yi)∗P(X∣Yi)/P(X)y=arg⁡max⁡ckP(Y=ck)∏jP(Xj=xj∣Y=ck)y = \arg\max_{ck} P(Y=ck)\prod_j P(X_j = x_j|Y=ck)y=argckmaxP(Y=ck)j∏P(Xj=xj∣Y=ck)并行化算法设计思路输出 Yi出现的频度
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。