论文阅读 Market Basket Analysis: Identify the changing trends of market data using association rule mini

Abstract

购物篮分析(MBA)又称关联规则学习或关联分析,是一种数据挖掘技术,可应用于市场营销、生物信息学、教育领域、核科学等多个领域。市场营销MBA课程的主要目的是为零售商提供信息,了解购买者的购买行为,帮助零售商做出正确的决策。执行MBA有各种各样的算法。现有的算法只处理静态数据,它们不能捕获随时间变化的数据。该算法不仅挖掘静态数据,而且为考虑数据变化提供了一种新的方法。本文讨论了数据挖掘技术,即关联规则挖掘,并提出了一种新的算法,该算法有助于研究客户行为,有助于提高销售额。

1. Introduction

如今,在零售市场、银行业、医疗等各个领域的数据库中都保存着大量的数据。但是,对于用户来说,整个信息不一定是有用的。因此,从大量的数据中提取有用的信息是非常重要的。这种提取有用数据的过程称为数据挖掘或知识发现和数据(KDD)过程。从数据中发现和解释模式的整个过程包括许多步骤,如选择、预处理、转换、数据挖掘和解释。数据挖掘有助于企业营销。在管理研究中使用购物篮分析的工作已经由Aguinis等人完成了。它帮助市场分析师了解客户的行为,例如哪些产品一起被购买。有各种各样的技术和算法可用于执行数据挖掘。

1.1. Techniques of Data Mining

有许多数据挖掘技术和算法可用来发现有意义的模式和规则。这些技术已经被Saurkar等人讨论过。有许多不同的技术如下:

  • 分类:在分类中,首先检查新出现的对象的特征,并将其分配到一个预定义的类,例如将信用申请人分为低、中、高风险。
  • 关联:关联的主要目的是建立市场中存在的物品之间的关系。关联建模的典型例子是购物篮分析和交叉销售程序。关联规则挖掘的工具有apriori算法和weka工具包。
  • 预测:在这个功能中,根据其他信息预测一些未知或缺失的属性值。例如:根据现有数据预测下周的销售额。
  • 聚类:在这种情况下,数据挖掘将数据组织成有意义的子组(聚类),使得组内的点彼此相似,并且尽可能地与其他组中的点不同。它是一种无监督分类。Verma等人提出了一种有效的用于购物篮分析的动态无监督聚类算法。
  • 离群值分析:在这种情况下,数据挖掘用于识别和解释异常。例如,在购物篮数据分析中,离群值可以是一些发生异常的交易。

1.2. Association Rule Mining

关联规则挖掘有助于发现隐藏在大型数据集中的有趣关系。在下面的例子中,商店的一些交易被视为如表1所示。
表 1
有趣的关系可以用关联规则的形式表示,如下图所示:

Milk->Butter

上述规则表明,牛奶和黄油之间有很强的关系。它表明许多顾客同时购买牛奶和黄油。这些规则有助于零售商了解顾客的购买行为。最流行的数据挖掘方法之一是从事务数据集中查找频繁项集并派生关联规则。赵等人对关联规则挖掘进行了研究。本文讨论了关联规则挖掘、分类、聚类等不同类型的挖掘技术。进一步讨论了关联规则的两个基本措施:支持和信任。

本研究提供了Apriori系列方法、AIS算法、Apriori算法、FP-Tree算法(频繁模式树算法)、RARM(快速关联规则挖掘)算法的知识。但从这些算法中,Apriori算法是对以往算法的最大改进,而且易于实现。

Andrej提出了用数据挖掘方法进行购物篮分析的工作。购物篮分析是基于六西格玛方法进行的。本研究的目的是改善结果并改变过程的西格玛绩效水平。本研究采用一般规则归纳法(GRI)建立关联规则。

Hilage等人提出将数据挖掘技术应用于特定的业务组织,并特别参考了购买行为。应用关联规则挖掘技术、规则归纳技术和apriori算法对结果进行了检验。随后,将这三种技术的结果结合起来,努力了解客户的正确购买行为。

Raorane等人提出了利用购物篮分析提取知识的工作,利用关联规则数据挖掘技术。为此,他们使用了超市的数据集,并分析了市场的日常交易。本研究的主要目的是将超市的产品进行合理的摆放,以增加超市的利润。

现有的购物篮关联规则挖掘工作主要有大型数据库网络中的MBA、多店环境中的MBA、快速算法的MBA。

1.3. Outlier Detection

霍金斯对“异常值”的定义是:“异常值是一种观测结果,它与其他观测结果相差甚远,以至于让人怀疑它是由另一种机制产生的”。

He等人开展了基于FP-Outlier-Frequent模式的离群点检测工作。提出了一种从数据集中发现频繁模式的离群点检测方法。一个称为FPOF(频繁模式离群点因子)的度量方法用来检测离群点事务,它定义并提出了FindFPOF算法来发现离群点。

Khan等人利用数据挖掘技术实现了商业智能的离群点检测。在此工作之前,研究人员的主要关注点是在大型数据集中发现有助于决策的模式。然而,离群值检测并不是主要的研究重点。因此,这项工作是离群点检测的进展。

虽然数据挖掘作为一种新兴的技术已经变得很流行,但是仍然有一些问题需要解决,以便使它在不同的领域中发挥作用。数据挖掘面临的问题包括数据质量、互操作性、安全性和隐私性等。数据挖掘的主要问题是缺乏对实时数据的分析。随着数据的变化趋势,周期性挖掘应运而生。周期性挖掘是指在固定的时间段之后进行数据挖掘。例如,百货商店每季度挖掘关联规则,以发现客户当前的购买行为。

2. Existing Algorithm

关联规则挖掘有许多可用的算法。现有的算法处理静态数据。他们根据支持度、置信度、升力等各种指标找到良好的关联规则。在这些算法中,当下一次执行数据挖掘时,算法自动不捕获数据中的变化。这就是为什么他们使用另一种比较算法来跟踪数据的变化。

3. Proposed Algorithm

我们提出的算法也进行关联规则挖掘。它致力于改变建模的概念。基本上,更改建模用于通过检查在已发现的模式中发生的更改来了解数据生成过程的动态。它处理动态数据并执行周期性挖掘。周期性挖掘实际上是KDD过程的成熟用法。

3.1. ARM-Predictor Algorithm

该算法试图捕捉购物篮分析中交易的变化趋势。该方法基于协同关联规则挖掘的基本思想,通过对关联规则预测器进行逻辑修改,得到各属性之间的强关联关系。(商品放在市场上)。其主要目的是找出交易中不同项目之间的关联。我们跟踪与高置信度相关的项目。(比如X→Y,则置信度= n(X∩Y)/n(X))。所以这个算法的结果是两组关联规则:

  1. 关联规则,对于未来的窗口是高度可预测的。
  2. 异常值(下一个窗口中出现的可能性最小的关联规则)。

输入:事务集
输出:预测的关联规则、过时的关联规则

3.1.1. Definitions and Specifications

Support(X)支持度 :项目的支持是一个项目在数据库事务中出现的次数。
Confidence置信度:Confidence置信度是与关联规则相关的一个术语,其数学定义为:Confidence=Support (X∩Y)/Support (X)
Score (X→Y):根据关联规则的置信度对关联属性赋值,如表2所示
表 2

3.1.2. Data Set

为了运行该算法,数据集是从扩展的面包店数据集中获取的,并将其存储在4个窗口中,并且该算法在每个窗口中处理2000个事务和26个物品,物品最多可以扩展到n。(网站链接:https://wiki.csc.calpoly.edu/ datasets/wiki/apriori))

3.1.3. Stages of Algorithm

第一阶段:在第一阶段,我们有4个窗口的二进制数据集,其规格如前一节所述。
Apriori算法:在本部分中,我们只是在所有窗口的二进制数据集上运行Apriori算法,并从中发现频繁项集和进一步的关联规则。
阶段2:这个阶段可以分为两个子阶段,其中两个算法交替运行。
第1部分- ARM-Update:该算法创建分数表,结构如图1(a)所示,然后随着连续窗口数据的到来更新分数表。

ARM-Update( Windowi, ConfidenceToScoreTable, ScoreTable )
{
	For ( i = start-of-Windowi ; i < end-of-Windowi ; i ++)
	{
		N = AssignScore (ith assoction rule, ConfidenceToScoreTable) ;
		CreateEntryScoreTable(N,ith association rule);
	}
}

其中
AssignScore (ith association rule, ConfidenceToScoreTable) :它是一个将输入的一些关联规则和置信度输入到记分表中的函数,该算法与part2算法结合使用,将处理后的信息提供给part2算法,part2算法再对这些信息进行处理。
CreateEntryScoreTable (N,ith association rule) :它是一个函数,它在分数表中创建一个新的条目,如果某个ith关联规则不在记分表中,或者如果存在,那么就将分数N添加到现有规则中。

第2部分- ARM-Predictor:这部分是在我们运行ARM-Update算法之后运行的,该算法根据某个阈值找到离群点。

ARM-Outlier (ScoreTable) {
	for ( i=0;i$<$number of months ;i++) {
		A = FindUpperRules(Rules above threshold);
		B = FindLowerRules( Rules below threshold) //containing outliers ;
	}
}

FindUpperRules() :它是一个寻找阈值以上的关联规则集的函数,如表4所示。
FindLowerRules() :该算法发现阈值以下的关联规则集如表5所示。这些规则被称为离群值。

3.1.4. Experimental results

3.1.5. (a) Specifications

ARM-Update 算法
输入: Window, Look-Up Table 输出: Score Table
其中
Window: 它包含特定时间段的关联规则
Look-Up Table: 它包含对相应分数值的置信度
Score Table :关联规则沿行排列,它们的属性在列中与它们的得分一起排列

ARM-Predictor 算法
输入 : Score Table 输出 : Outliers
其中
Score Table: 关联规则沿行排列,它们的属性在列中与它们的得分一起排列
Outliers: 高于分数阈值的关联规则集,低于分数阈值的关联规则集

3.1.5. (b) Points for analyzing results

结果如下:

  1. 在图1(a)所示的分数表中,为了简化事务,属性在顶部按行设置,并将其命名为a、b、c等。a、b、c等是放在购物篮里的物品。如图1(a)所示,在项目总数的第一行之后,有与其分配分数相关联的规则。
  2. 上面的关联规则,也就是高于阈值的规则被打印出来。
  3. 较低的关联规则,即低于阈值的关联规则。

3.1.5. © Results with data set

i) 第1个月和第2个月的评分表,分别与前一个月的数据变化情况如图1(a)和(b)所示
表 1
ii) 第三个月后的评分表,分别与第二个月和第四个月的数据变化相对应,如图2 (a)和(b)所示
表 2
异常值检测
iv)经过表3所示的第四个月规则后,我们进行离群点检测,在阈值为20时,将规则分为表4所示的上关联规则和表5所示的下关联规则两部分。较低的关联规则称为离群值。
表 3
表 3
表 4
表 5
表 5

4. Conclusion

目前,许多数据挖掘算法已经被开发出来并应用于各种实际问题中。然而,周期性挖掘是数据挖掘中的一种新方法,近年来也得到了越来越多的重视。由于不同应用的需要和数据挖掘的局限性,这一领域正在发展。这将增强现有数据挖掘技术的能力。发现由于数据变化而产生的模式本身就是一个值得探索的有趣领域。它可能有助于

  • 从大量数据中找出有趣的模式。
  • 自动跟踪的变化事实从之前的数据;由于这一特点,它可能有助于欺诈检测。
  • 预测未来关联规则以及给我们正确的方法找出离群值。

作者认为,还有一些领域需要关注。首先,分数的手动阈值对结果的影响较大,需要对阈值进行自动化处理,以更好地识别离群值。其次,这种方法是专门针对购物篮数据的,它可能会扩展到其他领域。

5. References

  1. Raorane AA, Kulkarni RV, Jitkar BD. Association Rule – Extracting Knowledge Using Market Basket Analysis.Research Journal of Recent
    Sciences 2012:1(2):19-27.
  2. Verma Sheenu, Bhatnagar Sakshi. An Effective Dynamic Unsupervised Clustering Algorithmic Approach for Market Basket
    Analysis.International Journal of Enterprise Computing and Business Systems 2014:4(2).
  3. Maurizio Marek. Data Mining Concepts and Techniques. E-Commerce Winter 2011.
  4. Herman A, Forcum LE, Joo Harry. Using Market Basket Analysis in Management Research.Journal of Management 2013:39(7):1799-1824.
  5. Saurkar Anand V, Bhujade V, Bhagat P, Khaparde A. A Review Paper on various Data Mining Techniques.International Journal of Advanced
    Research in Computer Science and Software Engineering 2014:4( 4):98-101.
  6. Kaur Paramjit, Attwal Kanwalpreet S. Data Mining:Review.International Journal of Computer Science and Information Technologies
    2014:5(5):6225-6228.
  7. Wu X, Kumar V, Quilan JR., Ghosh J, Yang Q, Motoda H. Top 10 Algorithms in Data Mining.Springer-Verlay London Limited 2007:14:1-37.
  8. Ngai EWT, Xiu Li, Chau DCK. Application of Data Mining Techniques in Customer Relationship Management:A Literature Review and
    Classification.Elsevier-Expert Systems with Applications 2009:36:2592-2602.
  9. Ramageri Bharati M. Data Mining Techniques and Applications. Indian Journal of Computer Science and Engineering:1(4):301-305.
  10. Hawkins D. Identification of Outliers.Chapman and Hall 1980.
  11. Zhao Quiankun, Bhowmick Sourav. Association Rule Mining: A Survey.Technical Report CAIS Nanyan Technological University,
    Singapore 2003:1-20.
  12. Trnka Andrej. Market Basket Analysis with Data Mining Methods.International Conference on Networking and Information Technology
    2010:446-450.
  13. Hilage Tejaswini A, Kulkarni RV. Application of data mining techniques to a selected business organization with special reference to buying
    behavior.International Journal of Database Management Systems 2011:3(4):169-181.
  14. Gupta Savi, Mamtora Roopal. A Survey on Association Rule Mining in Market Basket Analysis.International Journal of Information and
    Computationa Technology 2014:4(4):409-414.
  15. He Zengyou, Xu Xiaofei, Huang Joshuaz, Deng Shengchun. FP-Outlier: Frequent Pattern Based Outlier Detection.ComSIS 2005:2(1):103-
  16. Khan Mohiuddin A, Pradhan Sateesh K, Khaleel MA. Outlier Detection for Business Intelligence using Data Mining Techniques.
    International Journal of Computer Applications 2014:106(2):28-31.
  17. Kargupta H, Han J, Yu Philips S, Motwani R, Kuman Vipin. Book: Next Generation of Data Mining.CRC Press, Taylor and Francis Group,
    LLC 2008.
  18. Verma Dipti, Nashine Rakesh. Data Mining: Next Generation Challenges and Future Directions.International Journal of Modeling and
    Optimization 2012:2(5):603-608.
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值