数据挖掘报告

数据挖掘

摘 要

数据挖掘又称为数据库中的知识发现,是对数据库中蕴含的、未知的、非平凡的、有潜在应用价值的模式的提取。数据挖掘在如今这个信息时代扮演着越来越重要的角色。其旨在从海量数据中挖掘出人们感兴趣的方面,从而辅助人们发现社会规律并做出一些重大决策。本文着重介绍了数据挖掘方面几大重要的方法,聚类分析、关联规则、决策树、分类。并提出其当今存在问题。最后对数据挖掘未来的重点发展趋势作出预测。

关键词:数据挖掘;数据挖掘方法;存在问题;发展趋势;

Data mining

Abstract

Data mining, also known as knowledge discovery in databases, is the extraction of patterns that are implied, unknown, non-trivial, and potentially useful in the database. Data mining is playing an increasingly important role in this information age. It aims to dig out aspects of interest from massive data, thereby helping people discover social laws and make some major decisions. This paper focuses on several important methods of data mining, cluster analysis, association rules, decision trees, and classification. And raised its current problems. Finally, we will make predictions on the key development trends of data mining in the future.

Keywords: data mining; data mining methods; existing problems; development trends;

目录

1 引言

1.1 课题背景

1.2 国内外研究现状

2 数据挖掘常见方法

2.1 聚类分析

2.2 关联规则

2.3 决策树

2.4 分类

3 存在问题

4 发展趋势

5 结论

参考文献

  1. 引言
    1. 课题背景

数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色[1]。简单来讲,数据挖掘就是对大量数据进行探索分析以发现其内在联系、模式和规则的过程。(数据挖掘及应用,张俊妮)

计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。信息越来越凸显出其重要性和支配力,它将人类社会由工业化时代推向信息化时代,人类每天产生的数据量以指数方式增长。数据挖掘技术是20世纪80年代开始逐渐产生的,它的迅速发展得益于数据库、数据仓库以及互联网技术等信息技术的快速发展以及统计学和人工智能等方法在数据分析中的研究和应用。

当然,信息时代巨大的数据量以及社会越来越大的需求也对数据挖掘的发展有着决定性的作用。如今数据挖掘已经顺利应用在各行各业,如银行业的信贷风险分析,海关进出口走私、征收关税、货物监管,零售业中店铺选址数据分析,甚至在医学领域如脑疾病的诊断中也有应用。

    1. 国内外研究现状

数据挖掘又称为知识发现技术(KDD),是美国上世纪八十年代末一次人工智能会议上提出的,之后在二十世纪九十年代中期在蒙特利尔的第一届知识发现与数据挖掘国际学术会议上,把数据挖掘技术的主要研究领域定为两个方面,分别为科研领域的KDD以及工程研究领域的DM[2]。并且从此以后每一年都会召开一次关于数据挖掘技术研究领域的会议。现如今,国外对DM方面的最新发展趋势为对KDD的采样算法的更深入的研究,而在实际应用中主要面向的客户包含有保险公司以及大型数据库的数据挖掘工具研发企业。截至目前为止,对于数据挖掘方面的应用技术已经相当成熟,已经完成了许多具有较高应用价值的挖掘软件。国内的数据挖掘方面的研究与应用的起步相对于国外都是较晚的,大约九十年代中后期才有了这方面基本的框架。国内近几年成立的专门的数据挖掘研究机构有:北京大学SAS数据挖掘卓越中心、中国科大博纳数据挖掘中心、厦门大学数据挖掘中心(DMC)、复旦大学数据挖掘实验室、南京大学机器学习与数据挖掘研究组等[3]。国内当前比较新的发展方向为以下一些方面。首先,在分类分析技术研究过程中,尝试完成对相关的集合理论的整体体系进行建设工作,其建立的主要目的就是要对当前现存的海量数据进行处理。就现在而言,国内在这一方面的软件产业相对来说还不成熟,原因在于专门对这方面进行研究的人员一般都存在一些具有研究能力的高等院校之中,并且研究内容主要集中在DM的学习算法及其相关理论方面知识和实际应用[2]。

  1. 数据挖掘常见方法
    1. 聚类分析

聚类分析可以分为K-means Cluster聚类和系统聚类。

K-means Cluster聚类第一步会选择n个数值型变量参与聚类分析,最后要求的聚类数为k个。第二步,由系统选择k个观测量作为聚类的种子。第三步,按照距离这些类中心的距离最小的原则把所有观测量分配到各类中心所在的类中。第四步,这样每类中可能有若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心。第五步,根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程便结束了[4]。

而系统聚类首先会使数据进行一个标准化操作,然后根据距离方法的选择或者相似性关联程度的选择去选择测度方法。其次,选择聚类方法,最后输出图形选择。

聚类的算法包括分层聚类,即使用数据的联接规则,反复将数据进行分裂或聚合,以形成一个层次序列的聚类问题解。分裂法,首先创建k个划分,k为要创建的划分个数,然后,利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。基于密度的方法,即通过数据密度发现簇。

    1. 关联规则

在数据挖掘的知识模式中,关联规则是比较重要的一种。关联规则是数据中一种简单但很实用的规则。关联规则属于描述型模式,发现关联规则的算法属于无监督学习的方法。若两个或多个变量的取值之间存在某种规律性就称为关联。关联可分为简单关联、时序关联、因果关联,关联分析的目的是找出数据库中隐藏的关联 有两个标准,一个叫支持度,一个叫置信度。支持度指的是两个项集同时出现在所有事务中的概率,而置信度指的是出现了项集A的事务中,项集B也同时出现的概率。如果两个都高于阈值,那么叫做强关联规则,如果只有一个高于阈值,则称为弱关联规则。关联规则的主要挖掘算法有Apriori算法,基于划分的算法,FP-树频集算法等。关联规则的步骤为,首先找出存在于数据集中的所有频繁项集,即找出那些支持度不小于事先给定的支持度阈值的项集。其次,在频繁项集的基础上产生强关联规则,即产生那些支持度和置信度分别大于或等于事先给定的支持度阈值和置信度阈值的关联规则。

    1. 决策树

决策树是一种通过对历史数据进行测算,实现对新数据进行分类和预测的算法。简单来说,决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征,并以此为依据对新产生的数据结果进行预测。

决策树由3部分组成,分别为决策节点、分支、叶节点。其中决策树最顶部的决策节点是根决策节点,每一个分支都有新的决策节点。决策树采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。

决策树的构建步骤为四步:第一步,绘制树状图,根据已知条件排列出各个方案和每一个方案的各种自然状态。第二步,将各状态概率及损益值标于概率枝上。第三步,计算各个方案期望值并将其标于该方案对应状态节点上。第四步,进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望值小的方案剪掉,所剩的最后方案为最佳方案。

    1. 分类

分类方法在数据挖掘中是一项非常重要的任务。分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个类别。分类可以用于预测,预测的目的是从历史数据记录中自动推导出对给定数据的趋势描述,从而能对未来数据进行预测。

分类器的构造方法有统计方法、机器学习方法、神经网络方法等。统计方法包括贝叶斯法和非参数法等。机器学习法包括决策树法和规则归纳法。神经网络法主要为BP算法。

  1. 存在问题

数据挖掘领域存在如下一些问题

第一,在数据库中挖掘不同类型的知识,由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析。这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术。

第二,多个抽象层的交互知识挖掘,由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。特殊地,类似于 OLAP 在数据方上做的那样,应当通过交互地在数据空间和知识空间下钻、上卷和转轴,挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。

第三,模式评估——兴趣度问题,数据挖掘系统可能发现数以千计的模式。对于给定的用户,许多模式不是有趣的,它们表示平凡知识或缺乏新颖性。关于开发模式兴趣度的评估技术,特别是关于给定用户类,基于用户的信赖或期望,评估模式价值的主观度量,仍然存在一些挑战。使用兴趣度度量,指导发现过程和压缩搜索空间,是又一个活跃的研究领域。

第四,性能问题,这包括数据挖掘算法的有效性、大规模性和并行处理。

第五,处理噪音和不完全数据:存放在数据库中数据可能反映噪音、例外情况、或不完全的数据对象。这些对象可能搞乱分析过程,导致数据与所构造的知识模型过分适应。其结果是,所发现的模式的精确性可能很差。需要处理数据噪音的数据清理方法和数据分析方法,以及发现和分析例外情况的局外者挖掘方法。

  1. 发展趋势

经过多年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果,从而形成了独具特色的研究分支。毋庸置疑,数据挖掘研究和应用具有很大的挑战性。像其他新技术的发展历程一样,数据挖掘也必须经过概念的提出、概念的接受、光法研究和探索、逐步应用和大量应用等阶段。分析目前的研究和应用现状,数据挖掘应该在以下几个方面重点展开工作[5]。

第一,数据挖掘技术与特定商业逻辑的平滑集成问题。谈到数据挖掘和知识发现技术,人们大多引用“啤酒与尿布”的例子。事实上目前关于数据挖掘很难找到这样经典的其他例子。数据挖掘和知识发现技术的广阔应用前景,需要有效和显著的应用实例来证明。

第二,数据挖掘与特定数据存储类型的适应问题,不同的数据存储方式会影响数据挖掘的具体实现体制、目标定位、技术有效性等。因此,指望通过一种通用的应用模式适合所有的数据存储方式下发现有效知识是不现实的。

第三,数据挖掘语言与系统的可视化问题,数据的可视化从某种程度上来说,起到了推动人们主动进行知识发现的作用,因为它可以使人们从对数据挖掘的神秘感变成可以直观理解的知识和形象的过程。

第四,数据挖掘理论与算法的研究,经过十几年的研究,数据挖掘在继承和发展相关基础学科,如机器学习统计学等已经有许多巨大的进步。但是这不意味着数据挖掘理论的探索已经结束。一方面,在这些大的理论框架下有许多面向实际应用目标的挖掘理论等待探索和创新。另一方面,随着数据挖掘技术本身和相关技术的发展,新的挖掘理论的诞生是必然的,而且可能对特定的应用产生推动作用。所以,在未来,数据挖掘研究和探索的内容是机器丰富和具有挑战性的。

  1. 结论

不管是研究领域还是商业应用,数据挖掘都是一个热门话题,正得到人们越来越多的关注,而且数据挖掘技术也正在逐渐地成熟。要想真正做好数据挖掘,应该从三个方面综合考虑:用数据挖掘来解决的商业问题的类型,为进行数据挖掘所做的数据准备 , 数据挖掘的各种算法和理论基础[7]。

参考文献

  1. 朱明. 数据挖掘, 第2版[M]. 中国科学技术大学出版社, 2008.
  2. 王惠中, 彭安群. 数据挖掘研究现状及发展趋势[J]. 工矿自动化, 2011, 37(2):29-32.
  3. 陈卓民. 数据挖掘技术在国内外的研究和发展现状[J]. 青年文学家, 2009(16):122-123.
  4. 朱晓峰. 大数据分析与挖掘[M]. 机械工业出版社, 2019.
  5. 毛国君,段立娟. 数据挖掘原理与算法[M]. 清华大学出版社, 2016.
  6. 刘红岩,陈剑,陈国青. 数据挖掘中的数据分类算法综述[J]. 清华大学学报(自然科学版)(6):727-730.
  7. 王光宏, 蒋平. 数据挖掘综述[J]. 同济大学学报(自然科学版), 2004, 32(2):246-252.
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
数据挖掘报告全文共9页,当前为第1页。数据挖掘报告全文共9页,当前为第1页。基于电商网站商品数据的数据分析与挖掘 数据挖掘报告全文共9页,当前为第1页。 数据挖掘报告全文共9页,当前为第1页。 1.电子商务和数据挖掘简介 1.1 电子商务 电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上支付结算等多种类型的电子商务形式。电子商务正以其低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务 1.2 数据挖掘技术 数据挖掘(Data Mining),又称数据库中的知识(Knowledge Discovery in Database, KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。 而电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术涉及到Internet技术学、人工智能、、信息学、学等多个领域。 1.3. 数据挖掘过程 挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。 1.3.1 数据预处理 实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。 数据挖掘报告全文共9页,当前为第2页。数据挖掘报告全文共9页,当前为第2页。 1. 3. 2 模式发现 数据挖掘报告全文共9页,当前为第2页。 数据挖掘报告全文共9页,当前为第2页。 模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。 1. 3. 3 模式分析 模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。 电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术来分析大量的数据,可以挖掘出商品的消费规律与客户的访问模式,帮助企业制定有效的营销策略,充分发挥企业的独特优势,促进管理创新和技术创新,提高企业竞争力。 随着电子商务发展的势头越来越强劲, 面向电子商务的数据挖掘将是一个非常有前景的领域。它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来巨大的商业利润,可以为企业创建新的商业增长点。但是在面向电子商务的数据挖掘中也存在很多问题急需解决,比如怎样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘,如何控制整个Web上知识发现过程等。随着硬件环境、挖掘算法的深入研究及应用经验的积累,数据挖掘技术及在电子商务中的应用必将取得长足的进展。 2.数据挖掘 2.1数据挖掘主要内容 对于10种品牌的卫生巾的属性、价格、包装等性能与其销量的关系。 10种卫生巾分别为:555、ABC、高洁丝、护舒宝、洁婷、乐而雅、米娅、七度空间、苏菲、怡丽 2.2数据来源 天猫超市 2.3数据挖掘工具 1.八爪鱼采集器 八爪鱼采集器是深圳视
目前,中国的经济飞速发展,在每个行业中都呈现出了蓬勃发展的趋势,尤其以酒店管理业最为突出。我国国民经济迅速增长的势头,为酒店行业的发展带来极大的商机,引入数据挖掘方法来实现酒店管理。市场经济的不断成熟和技术的不断进步,迫使企业从“以产品为中心”的经营理念逐渐转移到“以用户为中心”的服务模式上来,但是各类酒店不断涌现,客户群体差异化,使得酒店行业无法满足旅客个性化需求和日益恶化的生存环境。酒店行业的蓬勃发展,使得酒店的信息化和酒店信息的需求也迅速增长。随着管理水平和服务质量的不断提高,以及日趋成熟的消费者市场,为了在瞬息万变的商业环境中创造出领先的管理原则以获得持续发展的竞争优势,重新审视周围的经营环境,并且将视角的焦点落在客户关系管理上。作为一个典型的服务行业,酒店实施客户关系管理(CRM)能对客户信息进行有效的采集和整合,使零散的客户信息变成酒店的客户知识。通过相关系统,相关人员能获得特定客户全面,个性化的信息,以便于针对“一对一”更经济、快捷和周到的优质服务,吸引和保持客户的不断光顾,最终实现酒店利润的最大化。基于数据挖掘的酒店行业CRM系统作为现代酒店信息管理系统的重要组成部分,对于酒店的正常运营,促进营销策略的不

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

等天晴i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值