数据挖掘
洛豳枭薰
最好的年华为最初的梦想尽最大的努力
展开
-
支持度与置信度
支持度: P (A并B):A、B同时出现在D(事务集)中的概率,表示AB的关联是否密切。 置信度: P(B|A):在已经发生A的事务集D中,出现B的概率,表示AB是否能够捆绑销售。原创 2017-09-13 11:16:53 · 654 阅读 · 0 评论 -
频繁模式算法之FP-Growth算法
https://wenku.baidu.com/view/c32bbada27d3240c8547ef1b.html 跳转到FP算法讲解PPT 1、构建FP树 (1)扫描频繁事务集,调整数据库 (2)构建FP树 2、FP树挖掘 (1)找到路径,省略挖掘事务则为条件模式基 注:条件模式基计数是根据路径中最小的点计数 3、构建条件FP树 4、进行全排列 注:条件FP树出现同一个事务,原创 2017-09-13 16:33:44 · 876 阅读 · 0 评论 -
P、NP、NPC、NP-hard问题
其中有一部分引用此博客http://blog.sciencenet.cn/blog-327757-531546.html 要计算或解决一个问题,该问题通常有一个大小规模,用n表示。例如,若分析计算一个二进制数,该数有多少位,这个位就是其大小规模。再比如,从n个数里面找出最大的那个数,这个n就是该问题的规模大小。怎么找?我们要比较n-1次才能得到结果,这个n-1就是所花的时间,也就是时间复杂度。再比原创 2017-09-13 18:43:48 · 336 阅读 · 0 评论 -
PAC理论
基础 1、假设空间:模型会将输入有一个对应的输出映射,映射集为假设空间 2、泛化误差:真实情况下模型的误差,与真实情况的偏离 就是泛化误差 3、错误率(error rate):分类错误的样本数占总样本的比例 4、“精度”(accuracy):就是1-错误率 5、误差(error ):实际预测输出和样本真实输出之间的差异 6、训练误差/经验误差(training error):学习器在训练原创 2017-09-13 17:18:02 · 4124 阅读 · 1 评论 -
大数据比赛
转载http://blog.csdn.net/Mr_Lyang/article/details/51620627 最近自己想参加一些如题类型的比赛,却发现找不到。自己知道的比赛平台要么已经截止报名,要么就是快结束了,内心真是一万匹马在奔腾。好不容易选了个阿里音乐预测的比赛,花了两天时间初步实现了一种方法,提交结果还不错,至少能进二期,却发现由于自己没看比赛规则,需要那啥实名验证,而被直接淘汰。想想转载 2017-10-17 19:52:00 · 4133 阅读 · 0 评论 -
分布式、代数式、整体度量
分布式:可以将数据集分成较小的子集,然后计算每一个每一个子集的度量,最后合并计算结果,得到整个数据集的度量(sum、count) 代数式:通过一个代数函数或者分布式 多个分布式度量的计算(sum/count) 整体度量:对整个数据集度量,不能通过划分子集并合并子集来度量。(中位数)原创 2017-11-30 21:20:18 · 925 阅读 · 0 评论