大数据应用之啤酒尿布

今日分享热词:数据挖掘 数据分析

数据挖掘

关于数据挖掘(Data mining)的概念定义,小编也是在网上爬了很久,弱水三千,咱就舀几瓢来喝:

1、首先是智库百科上的定义,从两个角度来说

技术角度:所谓的数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。什么个意思呢?现在数据库中有无数T/P/E...这么多的独立的数据,去通过挖掘来找出存在关系的数据或者说数据中的关系。问题来了,如何去找,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,利用人工神经网络、遗传算法、紧邻算法、决策树来寻求数据间的关系,从而实现数据挖掘的一些功能,比如数据的分类聚类、关联规则、特征等,此时,狭义上数据挖掘的工作已经结束了。

商业角度:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。这个说法就很贴近数据分析的广义概念了,可以理解为数据挖掘是深层次的数据分析或者广义的数据分析。

2、其次来看下甲骨文公司是如何定义数据挖掘的:

Data mining is the practice of automatically searching large stores of data to discover patterns and trends that go beyond simple analysis. Data mining uses sophisticated mathematical algorithms to segment the data and evaluate the probability of future events.

这个说法更多地是从技术角度来说明的:超越了简单的数据分析,利用人工智能等技术去识别大量数据中的关系或者趋势,也牵涉到复杂算法,从而实现数据的一个归类来支持决策。

数据分析

数据分析:是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

这里提到的统计方法主要有以下几种:

描述性统计分析:包括样本基本资料的描述,作各变量的次数分配及百分比分析,以了解样本的分布情况。比如面前有十几个数据,你把它的平均数、极差、方差、标准差相关的这些表示集中程度或者离散程度的量分析出来。

探索性分析:它是一种系统性分析数据的方法,用来展示数据变量的分布情况、利用散列矩阵图、散点图来分析变量之间的相关性。相关性分析是探索性分析中最常用的,主要就是来确定变量间是否呈正相关、负相关或不相关关系。

在上述两个分析过程中还会用到对比分析(比如我们常听到的环比,同比等一些基于时间和空间对比的名词)、分组分析(把数据对象按某几个特征划分成不同的组)和回归分析(回归分析可能更适应于长周期的变量,比如某服装店每一年中各季度各月的销售量,通过先前的销售量建立的回归模型来预测当下未来同期的销售量)等。

数据挖掘与数据分析中最能体现其共同点的一个特征是:为了更好的支持决策。

示例:啤酒与尿布

这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。

在这个case中:在数据挖掘阶段,主要用到的是关联规则“购物篮规则”,在这可能会有疑惑,比如买尿布时可能还会买香烟,但是为什么只说了啤酒呢,这可能牵涉到一个阈值了,也就是未达到这一个值时不能认为他们之间有关联,也就是同时买啤酒尿布的量(前提大于设定的阈值)大于同时买香烟尿布的量,把啤酒香烟作为异常值忽略(或者吧香烟作为次于啤酒的相关变量)。在发现这一关联后,研究人员开始进行跟踪,这里的跟踪并不是在商店中进行直接的观察,而是利用人工智能等技术手段对这两个变量的锁定观察,对这两个量的跟中研究就是基于数据挖掘所带来的一个决策。

在数据分析阶段,比如文中说的30%~40%,这其实都是数据分析的一个定量数据表现。上面提到的捆绑销售或者吧货物商品放到邻近的货架上,这些个行为也是数据分析在支持决策方面的一个表现。

同样的例子比如还有巧克力与TT等

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
尿布啤酒的故事 这是一个老故事, 但每次看总是能从中想到点什么.在一家超市里,有一个有趣的现象:尿布啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒尿布在一起购买的机会还是很多的。 是什么让沃尔玛发现了尿布啤酒之间的关系呢? 研究“啤酒尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长! 商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮商品相关性算法吸引人的地方,这也正是乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。 下面每一行是一个购物小票,直到遇到五个零00000,输入序列终止,每个字母表示一种商品(字母区分大小写,即a 和A代表不同的产品),请分析哪两个种产品的销售相关性最高: 样例输入: AABZXY BMNY CD CBYPQ BWVCY 00000 输出(字幕顺序按ASC码升序排列): BY
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值