数据挖掘
肯德基套餐
这个作者很懒,什么都没留下…
展开
-
支持度和置信度
支持度(support)支持度:{X, Y}同时出现的概率,例如:{尿布,啤酒}同时出现的概率{尿布,啤酒}的支持度 = 800 / 10000 = 0.08 {尿布,面包}的支持度 = 100 / 10000 = 0.01注意:{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度,支持度没有先后顺序之分置信度(confidence)置信度:购买X的人,同时购买Y的概率,例...原创 2018-08-16 09:24:15 · 23881 阅读 · 0 评论 -
Robustness of the Markov-Chain Model for Cyber-Attack Detection
The lowerprobability the observed activities receive from the Markov-chainmodel of the norm profile, the more likely the observed activitiesare anomalies resulting from cyber-attacks, and vice vers...原创 2019-04-08 09:05:25 · 347 阅读 · 0 评论 -
Survey of modern Fault Diagnosis methods in networks
The paper link is https://ieeexplore.ieee.org/document/6223355. In this paper, the author introduced some modern diagnosis method in generalities》I.MODERN FAULT DIAGNOSIS METHODS IN NETWORKS1.Inf...原创 2019-03-30 14:15:48 · 288 阅读 · 0 评论 -
GSP(Generalized Sequential Pattern Mining)算法
Generalized Sequential Pattern (GSP) Mining数据预处理根据Id将item 根据时间排序得到如下的序列,一个项集里面如果有多个项,说明这个项集里面项s是属于同一个时间点的,内部不分先后顺序,一般按照字典序排列。GSP算法找出频繁一项集找出所有满足支持度的频繁一项集,支持度的计算是按照用户粒度的,比如一个用户ID下A出现了三次,那么A的计数只会...原创 2019-07-18 17:44:32 · 4287 阅读 · 1 评论 -
PrefixSpan算法
术语定义items : 项,I={i1,i2,…,in}I=\left\{i_{1}, i_{2}, \ldots, i_{n}\right\}I={i1,i2,…,in}itemset: 项集, 一些项的组合sequence :有序的项集的集合,⟨s1s2⋅⋅sl⟩\left\langle s_{1} s_{2} \cdot \cdot s_{l}\right\rangle⟨s1s...原创 2019-06-23 21:30:52 · 390 阅读 · 0 评论 -
FreeSpan算法
paper: https://www.researchgate.net/publication/221654035_FreeSpan_Frequent_pattern-projected_sequential_pattern_miningFreeSpan: Frequent pattern projected sequential pattern mining基于频繁模式投影的序列模式挖掘F...原创 2019-06-22 23:02:28 · 2184 阅读 · 0 评论 -
FPTree 建树及挖掘
https://www.cnblogs.com/pinard/p/6307064.html结构项头表和FP Tree:项头表存储的是所有的1频繁项集,并且按照支持度递减, pointer是一个链表,串着元素相同的1频繁项集。项头表与数据预排序将所有的频繁1项集按照支持度排序,删除低于阈值的1项集,并将这些1项集放入项头表。将每条数据中的元素按照其单个支持度排序,大的元素放在前。建树...原创 2019-06-19 21:07:44 · 1317 阅读 · 0 评论 -
Apriori算法
尊重原创:https://www.cnblogs.com/pinard/p/6293298.html作用适用于在大数量的项集中发现关联共现的项。在啤酒与尿布中,项集表示很多消费者的购物单,项就是啤酒、尿布单个商品等,这个例子因为发现了啤酒与尿布之前的关系而闻名。从样本数据中找出支持度高的项集(频繁项集)。评估标准支持度: 同时发生A和B的样本数占总样本数的比例置信度:同时发生A和B...原创 2019-06-19 17:11:50 · 234 阅读 · 0 评论 -
项集概念
频繁项集(Frequent Itemset)支持度大于某个阈值的项集最大频繁项集(Maximal Frequent Itemset)A是频繁项集且A的超集是非频繁项集,记为MFRI闭项集(close pattern)如果A的任何超集的支持度都不等于A,那么A是一个闭项集合,闭频繁项集合A即是闭项集,又是频繁项集。最大频繁项集一定是闭合频繁项集。...原创 2019-04-15 17:08:20 · 4147 阅读 · 0 评论 -
对称二元变量和非对称二元变量
概念二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布尔属性。二元属性(例子)。倘若属性smoker表示患者对象,1表示患者抽烟,0表示患者不抽烟。一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;即关于哪个结果应该用0或1编码并无偏好(例如,属性gender的两种...原创 2018-08-16 09:29:30 · 11920 阅读 · 0 评论 -
TF-IDF与余弦相似性
“词频”(Term Frequency,缩写为TF),停用词:表示对找到结果毫无帮助、必须过滤掉的词,如”的”、”是”、”在”—-这一类最常用的词判定一个词的重要性:需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。用统计学语言表达,就是在词频的基础上,要对每个词分配一个”重要性”权重。这...原创 2018-08-16 09:28:09 · 1868 阅读 · 0 评论 -
iDice: Problem Identification for Emerging Issues
paper link https://www.microsoft.com/en-us/research/wp-content/uploads/2016/07/ICSE-2016-1-iDice-Problem-Identification-for-Emerging-Issues.pdfBackgroud:For clould machine problemd identification, t...原创 2019-03-30 14:41:23 · 1174 阅读 · 0 评论