目录
5.2 聚类分析企业经常面临销售问题: 如何通过餐饮客户消费行为习惯对用户进行细分,找到有价值的客户群体 和 需要关注的客户群体 如何对菜品分析,那些菜品畅销毛利润高,那些菜品滞销毛利率低 聚类 没有给定划分类别的情况下,根据相似性对样本进行分组的分析方法,无标记,无监督学习
常用聚类方法
所有对象分类完成后,重新计算k个聚类中心,连续性数据,取均值,分类变量时,均值无法定义,可取K-众数方法
连续属性: 样本之间距离,样本与簇之间的距离,簇与簇之间的距离,需要进行0均值规范化, 欧几里得距离,曼哈顿距离,民科夫斯基距离 文档数据: 转化为词矩阵形式 文档之间相似度计算公式:dij=cos(i,j)=I*J / (|I|*|J|)
目标函数: SSE误差平方和 对于两种不同的聚类效果,选择误差平方和较小的聚类结果 连续属性SSE=sum_i~K( sum_x in Ei( dist(ei,x)^2) )
python主要聚类分析方法: Kmeans,层次聚类,FCM,神经网络聚类
聚类可视化工具TSNE:高维数据可视化,如果数据维度高于3维,难以展示,TSNE提供了有效的数据降维方式,可以在二位空间或者三维空间中展示聚类结果。 | ||||||||||||||||||||||||||||||||||||||||||||
5.3 关联规则菜品之间相互关联,对立竞争关系(负相关),互补关系(正相关),隐藏在历史点菜数据中,通过对据进行挖掘,发现客户点餐规则,快速识别客户口味,推荐相关菜品,引导客户消费,提高客户就餐体验。 发现超市销售数据库中不同的商品之间的关联关系,哪种商品会在购物中同时购买,电脑 鼠标,面包 牛奶,面包促销 牛奶提价。关联销售的的牛奶有可能增加超市整体的利润。 数据挖掘活跃的研究方法之一,数据集中找出各项之间的关联分析
Apriori算法:以超市数据为例,提取关联规则的最大困难在于当存在很多商品时,可能的商品组合(规则的前项和后项)的数目回答道一种令人望而却步的程度。因而各种关联规则分析的算法 从不同的方面入手,减小可能的搜索空间&数据扫描的次数。 Apriori最经典的挖掘频繁项集的算法,第一次实现了在大数据集上可行的关联规则提取,核心思想:通过连接产生候选项及其支持度,通过剪枝生成频繁项集 关联规则和频繁项集: 项集A、B同时发生的概率:关联规则的支持度 support(A=>B)=P(AUB) 项集A发生,项集B发生的概率:关联规则的置信度 confidence(A=>B)=P(B|A)=support(a & b)/support(a) Ariori找出事物中的频繁项集,利用最大的频繁项集 与 预先设定的最小置信度阈值 生成强的关联规则。 性质: 频繁项集的所有非空子集 必须是频繁项集: 那么 向频繁项集中添加事物A,新的项集IUA一定不是频繁项集 实现过程: 找出所有频繁项集(支持度必须大于等于给定的最小支持度阈值),在这个过程中连接步和剪枝步相互融合,最终得到最大频繁项集Lk 连接步: 找到K项集,对于给定的最小值尺度阈值,分别对1项候选集C1,剔除小于阈值的项集,得到1项频繁项集L1,下一步由L1自身连接2项候选集C2,保留C2中满足约束条件的项集得到2项频繁集,记为L2;再下一步由L2连接L3,产生3项候选集C3,保留C2中满足约束条件的3项候选集,记为L3,。。。。。一直循环下去,得到最大频繁项集Lk 剪枝步: 紧接着琳姐不,在产生候选项Ck的过程中,起到减小搜索空间的作用。由于Ck是Lk-1与L1产生的,Apriori的性质,频繁项集的所有非空子集必须是频繁项集,所以不满足该性质的项集不会存在于CK中,该过程就是剪枝 由频繁项集产生强关联规则: 未超过最小支持度阈值的项集已经被剔除,如果剩下这些规则又满足了最小执行度阈值,那就挖掘出了强关联规则。 |
5.5离群点检测如何检测异常订单,异常刷卡消费?离群点检测 or 偏差检测 来解决 定义:发现与大部分数据显著不同的对象,通常方法会忽略这种数据点,但是异常的数据往往隐藏着更大的研究价值 离群点成因:数据来源于不同的类,自然变异,数据测量,收集误差 分类:
常用检测方法
基于统计的离群点检测方法: 需要满足统计学原理,如果分布已知,则检测可能有效。 基于邻近度的离群点检测: 比统计学方法更加一般,更容易使用,因为确定数据集有意义的邻近度度量,比确定他的统计分布更加容易 基于密度 和 基于邻近度的检测 密切相关: 密度常用于临近度定义(密度定义:1. 到K个最邻近的平均距离的倒数,如果距离小则密度高;2. DBSCAN聚类方法,密度:该对象指定距离d内的对象数 ) 基于模型的离群点检测估计概率分布的参数 建立概率模型,如果一个数据对象 不符合该分布 à 认为是离群点 1. 一元正态分布 离群点检测:N(μ,sigma),3sigma原则,落在3sigma之外的概率只有.0027 2. 混合模型的离群点检测:特殊的统计模型若干统计分布 对数据进行建模: 可以是任何分布 ,通常多元正态分布(易理解,效果好) 每个分布-->一个簇 --> 簇参数 --> 对应簇提供(中心,发散描述) 每个簇可以有这些分布之一识别 不同概率分布(如:类型相同,参数不同) 得到 的观测值集合 分布参数:
聚类时,使用两个分布的混合模型建模,一个分布为正常数据,另外一个分布对应离群点
基于聚类的离群点检测聚类分析 用于发现局部强相关的对象组 异常检测 用来发现 不与其他对象强相关的对象,聚类分析可以用于异常值检测
|