数据挖掘入门

目录

前言

简介      

挖掘对象

挖掘步骤

分析方法

常用算法

      神经网络法

      决策树法

      遗传算法

      粗糙集法

      模糊集法

      关联规则法

面对的挑战


前言

不知不觉就步入了研究生的大门,蓦然回首,大学四年时光如流水,正如歌词唱的那样,转眼就各奔东西。工作的工作,升学的升学。时间真的很快!留不住的时间,珍惜眼前吧!

简介      

      数据挖掘,一门计算机科学课程,一种计算机科学技术,一种针对大数据的处理手段,一种通过各种算法来搜索隐藏于大数据中的巨大潜在价值的过程。通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等方法来实现。

      在如今数据爆炸的时代,大数据越来越“大”,蕴藏在大数据中的潜在价值也越来越高,相应的,获取潜在价值的难度也越来越大。所以,市场上迫切需要一个优秀的获取潜在价值的工具。需求驱动发展,数据挖掘孕育而生。将杂乱无章的数据转换成有用的信息和知识,涉及到多种行业的应用,如市场分析、商务管理、科学探索、工程设计和生产控制等等。

      数据挖掘是人工智能和数据库领域研究的热点问题。数据挖掘就是指从数据库中的大量数据中揭示出未知的并具有潜在价值的信息的过程,是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析数据,作出归纳性的推理,从中挖掘出潜在价值的模式。数据挖掘可以与用户或知识库交互。

      数据挖掘是通过分析每个数据,从大量数据中寻找其中的规律的技术。主要有数据准备、规律寻找和结果展示。数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找:就是数据挖掘,通过某种方法来寻找数据集中数据的规律;结果展示:将找到的规律,尽可能使用用户可以理解的方法(如可视化、语言文字等)将规律结果展示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

      数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于并行计算的技术在处理海量数据集方面是非常重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

挖掘对象

      面向的数据类型可以是结构化的、半结构化的或者是异构化的,挖掘的方法可以是数学的、非数学的或者是归纳的,挖掘出的数据可以用于信息管理、查询优化、决策支持和数据自身的维护工作等。

      数据挖掘的对象可以是任意类型的数据源。关系型数据库(包含结构化数据的数据源)、数据仓库、文本、多媒体文件、空间数据、时序数据和Web数据等。

挖掘步骤

      在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。

      (1)定义问题:了解数据和业务问题,对目标定义清楚,明确要干什么。只有对问题定义清楚了,在之后的建模或者实施才能更加准确快速。

      (2)建立数据挖掘库:需要进行数据收集、数据描述及选择、数据质量评估和清理、合并、构建元数据、加载数据挖掘库并维护。

      (3)分析数据:找到对预测输出影响最大的数据字段。如果数据中的字段非常多,就需要一个具有良好的操作界面和功能强大的工具软件来协助完成。

      (4)准备数据:选择变量、选择记录、创建新变量、转换变量。

      (5)建立模型:建立模型是一个反复的过程,需要测试多种模型对当下需要解决的问题最有用。先用一部分数据来创建模型,再用剩下的数据来对模型进行测试和验证。有时候需要独立的第三个数据集(验证集)来对模型进行测试,因为创建的模型可能受原数据集的某些特性所影响。并且需要对数据模型进行训练和测试。

      (6)评价模型:模型创建好后,需要评价所得到的结果和模型的价值。从测试集中得到的数据准确率只对建立模型的数据有意义,需要进一步了解错误的类型和由其所造成的影响。一个有效的数据模型并不一定是正确的模型。造成这一现象的原因主要是因为建立模型过程中的各种假设因素,所以,需要在现实世界对模型进行测试,先在小范围中测试,当结果符合预期后,再向大范围推广。

      (7)实施:将数据模型提供给分析人员做参考,或者作用于不同的数据集上。

分析方法

       数据挖掘可分为指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定的属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘。

      (1)分类:从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再使用该模型对没有分类的数据进行分类。

      (2)估值:估值与分类类似,但估值的最终输出结果是一串连续的数值,估值的量并非预先确定,估值可以做为分类的准备工作。

      (3)预测:通过分类或估值来进行训练得出一个模型,如果对于检验样本而言,该模型具有较高的准确率,可将该样本用于对新样本的未知量进行预测。

      (4)关联规则:发现那些事件总是一起发生。

      (5)聚类:自动寻找并建立分组规则的方法,通过判断样本的相似性,把相似样本划分再一个组中。

常用算法

      数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

      神经网络法

      神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维变量、不能观察其中间的学习过程、输出结果难以解释、需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

      决策树法

      决策树是根据对目标变量产生效用的不同而构建分类的规则,通过一系列的规则对数据进行分类的过程,其表现形式类似于树形结构的流程图。采用决策树法的优点是决策制定的过程是可见的、不需要长时间构造过程、描述简单、易于理解、分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型的数据,而且特别适合大规模的数据处理。决策树提供了一种展示类似在什么条件下会得到什么值的这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断。

      遗传算法

      遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变的现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是适者生存,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型、同时可以并行处理各种数据;缺点是需要的参数太多、编码困难、计算量大。遗传算法常用于优化神经网络法,能够解决其他技术难以解决的问题。

      粗糙集法

      由波兰数学家Z Pawlak在20世纪80年代初提出,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单、在其处理过程中可以不需要关于数据的先验知识、可以自动找出问题的内在规律;缺点是难以直接处理连续的属性、必须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。

      模糊集法

      模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。

      关联规则法

      关联规则反映了事物之间的相互依赖性或关联性。其算法的思想是:首先找出频繁性至少和预定意义的最小支持度一样的所有频集,然后由频集产生强关联规则。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。

面对的挑战

      与数据挖掘有关的,还牵扯到隐私问题,例如:保险公司可以通过访问客户的医疗记录来筛选出患有高危病症的客户,从而意图削减保险支出。然而,这种做法会导致伦理和法律问题。

对于政府和商业数据的挖掘,可能会涉及到国家安全或者商业机密之类的问题。这对于保密也是个不小的挑战。

数据挖掘有很多合法的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命;但这当中还是存在着数据库可能被滥用的问题。

      数据挖掘实现了用其他方法不可能实现的方法来发现信息,但它必须受到规范,应当在适当的说明下使用。

      如果数据是收集自特定的个人,那么就会出现一些涉及保密、法律和伦理的问题。

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值