数据挖掘相关的八个问题

最新推荐文章于 2020-11-30 23:19:40 发布

spider_d

最新推荐文章于 2020-11-30 23:19:40 发布

阅读量2k

点赞数

分类专栏：大数据文章标签：数据挖掘数据仓库数据分析数据

本文链接：https://blog.csdn.net/djy37010/article/details/72878601

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

NO.1 Data Mining 和统计分析有什么不同？

　　硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法，也都是由统计学者根据统计理论所发展衍生，换另一个角度看，Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢？主要原因在相较于传统统计分析而言，Data Mining有下列几项特性：　　

1.处理大量实际数据更强势，且无须太专业的统计背景去使用Data Mining的工具；　　

2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件，Data Mining的工具更符合企业需求；　　

3. 纯就理论的基础点来看，Data Mining和统计分析有应用上的差别，毕竟Data Mining目的是方便企业终端用户使用而非给统计学家检测用的。

NO.2 数据仓库和数据挖掘的关系为何？

　　若将Data Warehousing（数据仓库）比喻作矿坑，Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术，也不是点石成金的炼金术，若没有够丰富完整的数据，是很难期待Data Mining能挖掘出什么有意义的信息的。　　

要将庞大的数据转换成为有用的信息，必须先有效率地收集信息。随着科技的进步，功能完善的数据库系统就成了最好的收集数据的工具。数据仓库，简单地说，就是搜集来自其它系统的有用数据，存放在一整合的储存区内。所以其实就是一个经过处理整合，且容量特别大的关系型数据库，用以储存决策支持系统（Decision Support System）所需的数据，供决策支持或数据分析使用。从信息技术的角度来看，数据仓库的目标是在组织中，在正确的时间，将正确的数据交给正确的人。　　

许多人对于Data Warehousing和Data Mining时常混淆，不知如何分辨。其实，数据仓库是数据库技术的一个新主题，利用计算机系统帮助我们操作、计算和思考，让作业方式改变，决策方式也跟着改变。　　

数据仓库本身是一个非常大的数据库，它储存着由组织作业数据库中整合而来的数据，特别是指事务处理系统 OLTP（On-Line Transactional Processing）所得来的数据。将这些整合过的数据置放于数据仓库中，而公司的决策者则利用这些数据作决策；但是，这个转换及整合数据的过程，是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述，数据仓库应该具有这些数据：整合性数据（integrated data）、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。

从数据仓库挖掘出对决策有用的信息与知识，是建立数据仓库与使用Data Mining的最大目的，两者的本质与过程是两回事。换句话说，数据仓库应先行建立完成，Data mining才能有效率的进行，因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备，且经过整合的。因此两者关系或许可解读为Data Mining是从巨大数据仓库中找出有用信息的一种过程与技术。

大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中（见图1）。　　

从数据仓库中直接得到进行数据挖掘的数据有许多好处。就如我们后面会讲到的，数据仓库的数据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要在清理一次了，而且所有的数据不一致的问题都已经被你解决了。　　

数据挖掘库可能是你的数据仓库的一个逻辑上的子集，而不一定非得是物理上单独的数据库。但如果你的数据仓库的计算资源已经很紧张，那你最好还是建立一个单独的数据挖掘库。　　

当然为了数据挖掘你也不必非得建立一个数据仓库，数据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在他上面进行数据挖掘。

NO.3 OLAP 能不能代替 Data Mining？

　　所谓OLAP（Online Analytical Process）意指由数据库所连结出来的在线分析处理程序。有些人会说：「我已经有OLAP的工具了，所以我不需要Data Mining。」

事实上两者间是截然不同的，主要差异在于Data Mining用在产生假设，OLAP则用于查证假设。简单来说，OLAP是由使用者所主导，使用者先有一些假设，然后利用OLAP来查证假设是否成立；而Data Mining则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时，使用者是自己在做探索（Exploration），但Data Mining是用工具在帮助做探索。　　

举个例子来看，一市场分析师在为超市规划货品架柜摆设时，可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品，接着便可利用OLAP的工具去验证此假设是否为真，又成立的证据有多明显；但Data Mining则不然，执行Data Mining的人将庞大的结帐数据整理后，并不需要假设或期待可能的结果，透过Mining技术可找出存在于数据中的潜在规则，于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现，这是OLAP所做不到的。（比如说通过结账数据分析得到，尿布和啤酒被同时购买的概率比较大时，可以影响超市的决策，但是这个发现一般常人是不会主动发现的，通过 Data Mining 技术得到这个假设之后，可以通过 OLAP 技术去验证假设的正确性，从而为决策奠定数据依据。）　　

Data Mining常能挖掘出超越归纳范围的关系，但OLAP仅能利用人工查询及可视化的报表来确认某些关系，是以Data Mining此种自动找出甚至不会被怀疑过的数据模型与关系的特性，事实上已超越了我们经验、教育、想象力的限制，OLAP可以和Data Mining互补，但这项特性是Data Mining无法被OLAP取代的。

NO.4 完整的Data Mining 包含哪些步骤？

　　1、数据挖掘环境　　

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识. 数据挖掘环境可示意如下图:　　

数据挖掘环境框图.gif 　　

2、数据挖掘过程图　　

下图描述了数据挖掘的基本过程和主要步骤　　

数据挖掘的基本过程和主要步骤　　

3、数据挖掘过程工作量　　

在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问.图2各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈.数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成.图3给出了各步骤在整个过程中的工作量之比.可以看到,60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%. 　　

图3数据挖掘过程工作量比例　　

4、数据挖掘过程简介　　

过程中各步骤的大体内容如下: 　　

(1). 确定业务对象　　清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的. 　　

(2). 数据准备　　1)、数据的选择　　搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据. 　　

2)、数据的预处理　　研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型. 　　

3)、数据的转换　　将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键. 　　

(3). 数据挖掘　　对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成. 　　

(4). 结果分析　　解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术. 　　

(5). 知识的同化　　将分析所得到的知识集成到业务信息系统的组织结构中去. 　

5、数据挖掘需要的人员　　

数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类. 　　

业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求. 　　

数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术. 　　

数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据. 　　

从上可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程.这一过程要反复进行牞在反复过程中，不断地趋近事物的本质，不断地优先问题的解决方案。数据重组和细分添加和拆分记录选取数据样本可视化数据探索聚类分析神经网络、决策树数理统计、时间序列结论综合解释评价数据知识数据取样数据探索数据调整模型化评价。

NO.5 Data Mining 运用了哪些理论与技术？

　　Data Mining是近年来数据库应用技术中相当热门的议题，看似神奇、听来时髦，实际上却也不是什么新东西，因其所用之诸如预测模型、数据分割，连结分析（Link Analysis）、偏差侦测（Deviation Detection）等，美国早在二次世界大战前就已应用运用在人口普查及军事等方面。　　

随着信息科技超乎想象的进展，许多新的计算机分析工具问世，例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等，使得从数据中发掘宝藏成为一种系统性且可实行的程序。　　

一般而言，Data Mining的理论技术可分为传统技术与改良技术两支。传统技术以统计分析为代表，统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术，尤其 Data Mining 对象多为变量繁多且样本数庞大的数据，是以高等统计学里所含括之多变量分析中用来精简变量的因素分析（Factor Analysis）、用来分类的判别分析（Discriminant Analysis），以及用来区隔群体的分群分析（Cluster Analysis）等，在Data Mining过程中特别常用。　　在改良技术方面，应用较普遍的有决策树理论（Decision Trees）、类神经网络（Neural Network）以及规则归纳法（Rules Induction）等。决策树是一种用树枝状展现数据受各变量的影响情形之预测模型，根据对目标变量产生之效应的不同而建构分类的规则，一般多运用在对客户数据的分析上，例如针对有回函与未回含的邮寄对象找出影响其分类结果的变量组合，常用分类方法为CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）两种。　　

类神经网络是一种仿真人脑思考结构的数据分析模式，由输入之变量与数值中自我学习并根据学习经验所得之知识不断调整参数以期建构数据的型样(patterns)。类神经网络为非线性的设计，与传统回归分析相比，好处是在进行分析时无须限定模式，特别当数据变量间存有交互效应时可自动侦测出；缺点则在于其分析过程为一黑盒子，故常无法以可读之模型格式展现，每阶段的加权与转换亦不明确，是故类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应时。　　

规则归纳法是知识发掘的领域中最常用的格式，这是一种由一连串的「如果…/则…（If / Then）」之逻辑规则对数据进行细分的技术，在实际运用时如何界定规则为有效是最大的问题，通常需先将数据中发生数太少的项目先剔除，以避免产生无意义的逻辑规则。

NO.8 Web Mining 和数据挖掘有什么不同？

　　如果将Web视为CRM（ Customer Relationship Management 客户关系管理）的一个新的Channel，则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。　　

该如何测量一个网站是否成功？哪些内容、优惠、广告是人气最旺的？主要访客是哪些人？什么原因吸引他们前来？如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素？以上种种皆属Web Mining 分析之范畴。Web Mining 不仅只限于一般较为人所知的log file分析，除了计算网页浏览率以及访客人次外，举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等，只要由网络连结出的数据库够大够完整，所有Off-Line可进行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的数据库，实施更大规模的模型预测与推估，毕竟凭借网际网络的便利性与渗透力再配合网络行为的可追踪性与高互动特质，一对一行销的理念是最有机会在网络世界里完全落实的。　　

整体而言，Web Mining具有以下特性：1. 数据收集容易且不引人注意，所谓凡走过必留下痕迹，当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的；2. 以交互式个人化服务为终极目标，除了因应不同访客呈现专属设计的网页之外，不同的访客也会有不同的服务；3. 可整合外部来源数据让分析功能发挥地更深更广，除了log file、cookies、会员填表数据、线上调查数据、线上交易数据等由网络直接取得的资源外，结合实体世界累积时间更久、范围更广的资源，将使分析的结果更准确也更深入。　　

利用Data Mining技术建立更深入的访客数据剖析，并赖以架构精准的预测模式，以期呈现真正智能型个人化的网络服务，是Web Mining努力的方向。（推荐系统中一个重要的数据来源就是建立用户模型，根据用户的个性化模型达到为用户定制个性化内容的目的，从而吸引更多的用户）

NO.9 数据挖掘在 CRM 中扮演的角色为何？

　　CRM（Customer Relationship Management）是近来引起热烈讨论与高度关切的议题，尤其在直效行销的崛起与网络的快速发展带动下，跟不上CRM的脚步如同跟不上时代。事实上CRM并不算新发明，奥美直效行销推动十数年的CO（Customer Ownership）就是现在大家谈的CRM— 客户关系管理。　　

Data Mining应用在CRM的主要方式可对应在Gap Analysis之三个部分：　　

针对Acquisition Gap，可利用Customer Profiling找出客户的一些共同的特征，希望能藉此深入了解客户，藉由Cluster Analysis对客户进行分群后再透过Pattern Analysis预测哪些人可能成为我们的客户，以帮助行销人员找到正确的行销对象，进而降低成本，也提高行销的成功率。　　

针对Sales Gap，可利用Basket Analysis帮助了解客户的产品消费模式，找出哪些产品客户最容易一起购买，或是利用Sequence Discovery预测客户在买了某一样产品之后，在多久之内会买另一样产品等等。利用 Data Mining可以更有效的决定产品组合、产品推荐、进货量或库存量，甚或是在店里要如何摆设货品等，同时也可以用来评估促销活动的成效。　　

针对Retention Gap，可以由原客户后来却转成竞争对手的客户群中，分析其特征，再根据分析结果到现有客户数据中找出可能转向的客户，然后设计一些方法预防客户流失；更有系统的做法是藉由Neural Network根据客户的消费行为与交易纪录对客户忠诚度进行Scoring的排序，如此则可区隔流失率的等级进而配合不同的策略。　　

CRM不是设一个（800）客服专线就算了，更不仅只是把一堆客户基本数据输入计算机就够，完整的CRM运作机制在相关的硬软件系统能健全的支持之前，有太多的数据准备工作与分析需要推动。企业透过Data Mining可以分别针对策略、目标定位、操作效能与测量评估等四个切面之相关问题，有效率地从市场与顾客所搜集累积之大量数据中挖掘出对消费者而言最关键、最重要的答案，并赖以建立真正由客户需求点出发的客户关系管理。