![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 82
没有人比我更懂暴力算法
计算机专业博士僧,JAVA语言忠实粉丝,研究方向:数据挖掘&算法。
展开
-
浙江大学-数据挖掘课程-复习笔记
Home FrontEnd Wiki PaperReading Github Others About浙江大学-数据挖掘课程-复习笔记介绍什么是数据挖掘:抽取interesting pattern数据挖掘的过程:knowledge discovery 过程KDD可以被挖掘的patterngeneralization(概括)Information integration 信息聚合,数据仓库的构建(数据清洗、变换、聚合和多维数据模型)Data cube technology数据立方技术Mu转载 2021-04-14 10:48:36 · 740 阅读 · 0 评论 -
4 Guided FP-Growth algorithm for mining multitude-targeted itemsets and class association rules in
1、论文希望解决的问题:finding all frequent item-sets in large or dense datasets may be time-consuming, and a user may be interested merely in some specifific item-sets rather than all of them.2、作者的目标:quickly mine a given set of itemsets using a small amount of m原创 2021-04-04 15:43:09 · 129 阅读 · 0 评论 -
3、Mining top-k high utility itemsets with effective threshold raising
高效的阈值增长策略1、论文希望解决的问题:难以确定一个合适的最小效用阈值。2、作者的目标:raise the minimum utility threshold values as quickly as possible to reduce the total number of candidates generated in growth stages.(design better threshold raising strategies to signifificantly improve原创 2021-03-28 18:41:13 · 229 阅读 · 0 评论 -
2、A Multi-Core Approach to Efficiently Mining High-Utility Itemsets in Dynamic Profit Databases
1、论文希望解决的问题:Transactional data changes over time,Many algorithms for mining high-utility itemsets (HUI) ignore this important property and thus are inapplicable or generate inaccurate results on real data.2、作者的目标:Proposes a novel algorithm Multi-Core H.原创 2021-03-28 18:25:46 · 148 阅读 · 1 评论 -
1、Efficient Chain Structure for High-Utility Sequential Pattern Mining
1、论文希望解决的问题:The above algorithms still suffer the limitation of memory usage, we thus design an effificient sequence-utility (SU)-Chain structure to keep more information for the later mining progress.2、作者的目标:we present an effificient sequence-utility.原创 2021-03-28 18:17:15 · 215 阅读 · 1 评论 -
top-k 高效用项集挖掘_学习笔记 (一)基本算法和SPMF数据库
近年来提出了几种高效用项集挖掘算法。我的开源数据挖掘库SPMF中提供了目前Java实现的最先进的算法。(http://www.philippe-fournier-viger.com/spmf/)例如,它提供了Two-Phase算法(2005年)、 UPGrowth算法(2011年)、 HUI-Miner算法(2012年) 和FHM算法(2014年)的源代码。(http://www.philippe-fournier-viger.com/spmf/ISMIS2014_FHM_Faster_High_ut原创 2020-09-09 10:33:21 · 1146 阅读 · 0 评论 -
top-K 算法总结
问题描述:有 N (N>1000000)个数,求出其中的前K个最小的数(又被称作topK问题)1 最基本思路将N个数进行完全排序,从中选出排在前K的元素即为所求。有了这个思路,我们可以选择相应的排序算法进行处理,目前来看快速排序,堆排序和归并排序都能达到**O(NlogN)**的时间复杂度。2 优先队列可以采用数据池的思想,选择其中前K个数作为数据池,后面的N-K个数与这K个数进行比较,若小于其中的任何一个数,则进行替换。这种思路的算法复杂度是O(N*K).剩余的N-K个数与前面K个数比较的原创 2020-09-08 21:21:52 · 5922 阅读 · 4 评论 -
高效用项集挖掘_学习笔记 (二)基本概念定理和论文解读
近年来提出了几种高效用项集挖掘算法。我的开源数据挖掘库SPMF中提供了目前Java实现的最先进的算法。(http://www.philippe-fournier-viger.com/spmf/)例如,它提供了Two-Phase算法(2005年)、 UPGrowth算法(2011年)、 HUI-Miner算法(2012年) 和FHM算法(2014年)的源代码。(http://www.philippe-fournier-viger.com/spmf/ISMIS2014_FHM_Faster_High_ut原创 2020-09-08 17:36:12 · 629 阅读 · 0 评论 -
数据频繁项集挖掘算法
**Apriori算法**Apriori 采用广度优先的搜索方式,缩小搜索空间用到了一个称为apriori的性质,其性质为:频繁项集的所有非空子集必然也是频繁的。这是很显然的,比如 同时包含项AB的记录条数肯定比只包含A的记录少。这条性质反过来也可以这么说:如果一个项集是非频繁的,那么它的超集必然也是非频繁的。算法过程如下:输入:数据集D,支持度minsup 输出:满足支持度的所有项...原创 2019-10-12 21:39:30 · 2055 阅读 · 0 评论