Classification和Clustering属于分组分类法,Regression和Time-serise属于预测推断法,Association和Sequence属于序列规则法。
· Classification是根据一些变量的值做计算,在依照结果做分类(计算的结果会被分类为几个离散数值,例如将一组对象分为"可能会发生"或"可能不会发生"两类),Classfication经常被用来处理目标对象的筛选问题。实际中我们会根据历史数据来研究不同分类之间的特征,然后再根据这些特征对其他非分类或者新的对象来判断。历史数据可能来自于现有数据,或是从一个完整的数据库中做抽样,然后再带入实际数据做测试),例如利用一个大型数据库中的数据来建立一个分类模型,再利用这个模型来对数据库中的其他数据或新的数据做分类预测;
· Clustering用在将数据分群,目的是找出群之间的差异或相似性。Clustering(和Classfication的区别)在分析前并不知道根据何种方式来分类,所以必须用专业领域的知识来解读这些分群之间的意义;
· Regression是使用一系列现有数值来预测一个连续数值的可能性。若将范围扩大,也可利用Logisic Regression来预测类别变数。现代常用分析技术如类神经网络或决策树等分析工具的广泛使用使预测推断不再局限线性,在预测上增加了更多的工具和应用的范围;
· Time-serise和Regression类似,用现有数值来预测未来的数值。两者的差异在于Time-serise所分析的数据都和时间有关。Time-serise可以处理和时间有关的特性,如周期性、阶段性、季节性等,或者如过去和未来的关联性;
· Association是要找出来在某一事件中会同时出现的东西:如A是某一事件的一种选择,那么B也出现在该时间中的几率有多大。例如顾客买了尿布,那么这个顾客同时也会购买啤酒的概率是80%;
· Sequence与Association关系密切,不同的是Aequence中的事件是以时间因素来区隔的。如A股票在某一天上涨了9%,而且当天大盘加权指数下降,那么B股票在两天以内上涨的几率是80%;
· Top-N (最简单,也是应用最广的算法)
应用场景:
· 零售业中常从顾客的历史购买数据中分析顾客的消费习性、产品组合偏好、流失顾客的特征、推出新品的时间点、按照品牌的定位高低来区隔顾客,从而达到差异化销售的目的。
· 制造业在生产加工过程中找出影响品质的重要因素,从而提升作业效率。
· 针对新顾客,可以利用客户画像(Hybris Profile)找出客户的一些共同特征,以深入了解客户。借助于分组分群(Hybris MarketingSegmentation)对客户分群,然后再通过预测分析(Hybris MarketingPredictive)预测那些人可能成为客户,以帮助营销人员找到正确的销售对象,降低销售成本,提供销售成功率。
注: 文章中的图皆出自Joel Tran (HybrisMarketing开发架构师),做了些许调整。