牛奶到底和谁摆放一起销量高?啤酒为什么与尿不湿摆放一起卖得更多?让大数据挖掘来告诉你真相!
超市里,牛奶到底和哪种商品摆放一起销量更高?啤酒为什么与尿不湿摆放在一起会卖得更多?乍一看,它们似乎毫无联系,而大数据挖掘却能告诉你它们之间的关联。那么,大数据挖掘是什么呢?又有哪些方法?
简单来说,大数据挖掘即指从大量数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,其常用方法有分类、聚类、回归分析、关联规则、神经网络方法、Web数据挖掘等。
分类
数据被喻为蕴藏能量的煤矿,就像煤炭可以分为焦煤、无烟煤、肥煤、贫煤等一样,每种数据也有自身的特点,比如频率、量、速度、类型和真实性等等,从而将数据分出来。像好坏、高低、胖瘦……这些就是生活中最简单的分类方法。
再比如,信用卡公司将持卡人信誉分为良好、一般和较差三类,如果建立“信誉良好的客户是那些收入在5万元以上,年龄在40至50岁之间的人士”这样一个模型,就