数据分析系列之数据挖掘基础

了解什么是数据挖掘

1.假设背景

1. 在传统企业现状,以连锁餐饮为例?
今年来餐饮企业面临原材料上涨,房租上涨,人力成本升高的必然趋势,导致净利润大幅度下降,同时同业竞争的加剧的环境下,如何在保证产品的品质的基础下提高企业效率,成为当前餐饮企业必须解决的问题.
2. 目前做了什么改变,有什么样的基础?
餐饮企业目前通过企业信息化系统来提高效率,已具有的信息系统包括如下:
1.客户关系管理系统:保存客户会员信息,客户生日关怀,客户点餐喜好等.
2.前厅管理系统:平板或者微信点餐,实现快速点单,直达厨房.
3.后厨管理系统:后厨按照电子菜单做餐,同时收银台打印纸质菜单送抵用户,已备客户查询.
4.财务管理系统:日销售统计,菜品销售统计,日客户流量,财务审计等.
5.物流管理系统:物资进销存,包括供应商管理,入库,消耗,剩余,连锁配送等.
3. 以上系统积累了大量同质化数据,如何让企业在数据中捡漏,实现差异化服务?
数据分析可以做什么,这个还得从业务出发,企业最为关注于顾客和产品.譬如那些顾客是优质顾客,如何给不同的顾客提供差异化服务,四川的喜欢吃辣的,就推荐辣的.产品就是那几个产品销量最好,什么时候准备什么产品,如何备货,如何搭配获得更好地销量.
目前该企业大量依靠服务员的基础素质,依靠经验提供差异化服务,存在"人治"的随意性和不确定性导致的风险,必须依靠一种工具来提供精细化营销,这种工具数据分析可以提供.

2.数据挖掘过程

1. 数据分析基本目标?
对于餐饮企业来说,数据分析基本任务就是通过客户会员消费,菜品销量,成本单价,促销情况,货物存储等内部数据,加之节假日信息,商圈信息,天气等外部数据,通过数据分析,实现菜品智能推荐,促销预测,客户价值分析,商圈选点,菜品销量预测,最后把信息结果推送到管理者提供决策参考,实现降低运营成本,精准营销.
2. 数据分析过程?
首先要对整个流程做到心里有数.我们在对以上内容有了初步了解之后,决定对餐饮企业做以下步骤,实现整个数据分析流程:
1.理解需求,确定目标任务,指标:餐饮,前厅,后厨,仓储等部门访谈,调研.
2.数据采集,抽样,数据质量把控,实时采集:原材料,销量,客户以及外部数据收集.
3.数据整理,数据探索,清洗,变换:通过采集到的数据进行整理,去除异常,错误等数据.
4.模型发现,构建模型,验证模型:菜品推荐,客户价值,选址优化,销量预测等模型构建.
5.模型评价,设定评价标准,多模型对比,模型优化:实现最优模型.
6.模型发布,部署,重构:提供菜品推荐,客户价值,选址优化,销量预测等服务.
3.对于餐饮企业具体分析来说,挖掘目标为?
1.实现菜品智能推荐,帮助用户快速发现自己最感兴趣的菜品,同时确保推荐给用户的是餐饮企业所期望的,实现双赢.
2.对餐饮客户进行细分,了解不同客户的消费特征和贡献度,针对不同用户实现不同策略,确保有限营销资源投放在最有价值的用户身上.
3.基于菜品销售数据以及竞争对手,天气,节假日等,对菜品销量进行预测,方便备货.
4.基于餐饮大数据,优化新店选址,同时基于地址,进行菜品调整.
4. 如何进行数据采集取样?
在明确了数据挖掘目标,我们需要从业务系统抽取与数据目标相关的数据子集,抽取数据子集需要考虑相关性,有效性,可靠性.数据子集可以减少数据处理量,更好凸出数据特征.即使是对一个数据仓库进行抽取,也必须考虑数据质量,衡量数据标准为:数据资料完整无缺,准确无误,反映正常状态.
至于抽样方法,多种多样:

  • 随机抽样:按照10%比例对数据进行随机抽样,每一个数据有10%的概率被抽取.
  • 等距抽样:按照10%比例对100组数据抽样,则抽取10,20,30等10组数据.
  • 分层抽样:将样本数据分成不同层次,同一层次概率相同,不同层次概率不同.
  • 分类抽样:将样本数据依据某些类进行分类后再抽样.
  • 从起始顺序抽样:从输入数据集起始处开始抽样.
    从餐饮企业信息化系统进行抽样:
  • 餐饮企业信息:名称,位置,规模,联系方式,部门,人员,角色等.
  • 餐饮客户信息:姓名,会员等级,联系方式,消费时间,消费金额等.
  • 餐饮菜品信息:名称,单价,成本,部门等.
  • 餐饮销量数据:名称,日期,销量,销售金额.
  • 餐饮物流数据:供应商姓名,地址,名称,客户评价等.
  • 促销活动数据:日期,内容,描述.
  • 外部数据:天气,节假日,竞争对手,商圈信息等.

5. 如何进行数据探索,确保数据质量?
数据模型质量不会超过样本数据质量,确保数据质量非常重要,我们基于经验抽取样本数据,所以要看样本数据是否符合我们要求,是否体现出新的特征,是否有较强的规律性特征趋势,属性之间是否具有相关性等,后续介绍相关函数实现数据探索.
6. 如何对数据进行预处理,实现可挖掘的标准化数据?
当采集数据的维度过大,设计多个表多个属性,必然存在一些缺失数据,不一致数据,噪音数据,同时需要进行降维.针对餐饮企业数据,我们预处理包括:数据筛选,数据缺失值处理,数据变量转化,坏数据处理,主成分分析,属性选择,数据标准化,数据规约等.
7. 获得标准化数据后,我们挖掘建模应该采用哪种算法来挖掘数据,解决问题?
一般挖掘建模有分类,聚类,关联规则,时序模式,智能推荐等.基于餐饮行业的数据挖掘应用,我们选择基于关联规则的动态菜品智能推荐,基于聚类算法的客户价值分析,基于分类与预测算法的菜品销售预测,基于整体优化的新店选址.
以菜品销量预测为例,模型构建是以菜品历史销量,综合考虑了节假日,气候,竞争对手等数据,它反映了采样数据内部结构一般特征,并与采样数据结构吻合.模型具体化就是菜品预测公式,通过公式产生预测值.
8. 获得模型之后,如何选择最优模型,进行模型评价?
不同模型评价方法不同,通过评价,自动找出最优模型,同时根据业务对模型进行解释与应用.

3.常用数据分析工具

1. SAS Enterprise Miner
Enterprise Mincr(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术 。同时还集成了复杂的数据库管理软件 。它的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。
2. IBM SPSS Modeler
IBM SPSS Modeler原名Clemen丨inc, 2009年被IBM公司收购后对产品的性能和功能进行大幅度改进和提升。它封装最先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。IBM SPSS Modeler拥有直观的操作界面,自动化的数据准备和成熟的预测分析模切,结合商业技术外以快速建立预测性模型。
3. SQL Server
Microsoft公司的SQL Server中集成广数挖掘约组件—Analysis Servers,借助SQL Server的数据库管理功能,可以无缝地集成在SQL Server数据库中。在SQL Server 2008中提供了决策树货法、聚类分析W法、Naive Bayes 法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是,预测建模的实现是基于SQL Server平台.
的,平台移植性相对较差。
4. Python
Python(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它具行以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。Python并不提供一个专门的数据挖掘环境 ,但是它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。
5. WBKA
WEKA ( Waikato Environment for Knowledge Analysis)足一款知名度较高的开源机器学习和数椐挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时, WBKA也为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。
6. KNIME
ICNIME (Konstanz InformalionMiner, http://www.knime.org) 是基于Java开发的,可以扩展使用Weka中的挖掘算法。KNIME采用类似数据流(data flow)的方式来建立分析挖掘流程。挖掘流程由一系列功能许点组成,每个节点苻输入/输出端口,用于接收数据或模型,导出结果。
7. RapidMiner
RapidMiner也称为YALE(Yet Another Learning Environment,https://rapidminer.com),提供图形化界面,采用类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构迮,可以调用Weka中的各种分析组件。RapidMiner拓展的套件Radoop,可以和Hadoop集成起来,在Hadoop集群上运行任务。
8. TipDM
TipDM (顶尖数据挖掘平台 )使用Java语言开发,能从各种数据源获取数据,建立多种数椐挖掘模塑。 TipDM目前已集成数十种预测算法和分析技术,基本薄盖了国外主流挖掘系统支持的算法。TipDM支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理);预测违模(参数设置、交叉验证、模型训练、模型验证、模型预测)聚类分析、关联规则挖掘等一系列功能。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值