数据挖掘的功能总结

总的来说,数据挖掘任务可以分为两类:描述性的和预测性的。描述性的数据挖掘任务是对目标数据集中数据的属性进行特征描述,而预测性的挖掘任务是对当前数据进行归纳以进行预测。

1,特征描述和区分

    特征描述是对某类的数据的一般特征或属性的总结。特征描述的结果可以以多种方式进行展现,例如饼状图,条形图,曲线,多维数据立方体,多维表等。

    数据区分是将某类的数据的一般特征与另一个或多个类别的数据的一般特征进行比较。

2,挖掘频繁模式和相关性

    在一些商业交易中,有些商品会被同时购买,例如在超市里,很多顾客在购买牛奶的同时,也会购买面包,这样的经常一起出现的事物就是一种频繁项集。另外有些事物可能是相继出现的,例如很多消费者先买了一台笔记本电脑,然后会买数码相继,再接着他们会买内存卡,这就是一种(频繁)顺序模式。对频繁模式的挖掘有利于发现数据之中的一些有趣的关联。

3,分类和回归

    分类是通过对一些已知类别标号的训练数据进行分析,找到一种可以描述和区分数据类别或概念的模型,然后用这个模型来预测未知类别标号的数据所属的类别。这个分类模型的形式有多种,例如分类规则,决策树,数学公式或者神经网络。此外还有朴素贝叶斯分类器,支持向量机和KNN分类器等。

    分类器处理的类别是离散而无序的,回归则是具有连续取值的函数进行建模。回归分析是一种统计方法,常用于数值预测。

4,聚类分析

    分类和回归分析都有处理训练数据的过程,训练数据的类别标号已知。而聚类分析则是对未知类别标号的数据进行直接处理。在很多情况下,类别标号已知的训练数据可能在最开始是无法获得的。在聚类过程中,聚类的原则是使类内数据的相似性最大,而使类间数据的相似性最小。每一个聚类可以看成是一个类别,从中可以导出分类的规则。

5,离群点分析

    一个数据集可能包含一些对象,它们与数据模型的总体行为不一致,这样的对象就是利群点。很多数据挖掘方法将离群点视为噪声或例外而抛弃,然而在一些应用中例如谎言检测,这些稀有的事件可能更应该引起关注。

    离群点可以通过统计测试进行检测,即假设数据集服从某一个概率分布,看某个对象是否在该分布范围之内。也可以使用距离测量,将那些与任何聚类都很远的对象当做离群点。除此之外,基于密度的方法可以检测局部区域内的离群点。

6,是否所有的模式都值得关注?

    一个数据挖掘系统可能产生成千上万中模式或者规则,然而对一个特定用户来说,只有一小部分的模式是他感兴趣的。

    这里有三个重要的问题,1,是什么使得一个模式令人关注?

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘分析报告全文共3页,当前为第1页。数据挖掘分析报告全文共3页,当前为第1页。数据挖掘分析报告 数据挖掘分析报告全文共3页,当前为第1页。 数据挖掘分析报告全文共3页,当前为第1页。 这是一篇由网络搜集整理的关于数据挖掘分析报告模板的文档,希望对你能有帮助。   一、 提出问题  1、单位基本情况及相关业务流程介绍;  对于药店,储存大量的常用药品是必不可少的工作,随之而来的对药品的数据信息管理和储存成为了令人头疼的问题,在接到货源后,工作人员需要统计药品产地和价格的信息,为以后的货源供给地,用合理的价格出售药物,是至关重要的工作。  2、单位存在的问题。  由于货物种类、名称众多,在短时间内分析好相关数据几乎不可能,大量的数据,依靠人力或是非数据统计软件进行统计工作,事倍功半。严重影响药店的'正常进货,出售药品的工作。  二、 分析问题  1、对该单位存在的问题进行分析;  由以上问题可见,利用数据挖掘进行相关数据的统计和整理工作,简单、省时、有效。  2、解决问题的可能途径和方法。  利用SQL SEVER 导入数据,再提取统计分析结果,很快会得到想要的数据分析结果。  三、 利用数据挖掘技术解决问题数据挖掘分析报告全文共3页,当前为第2页。数据挖掘分析报告全文共3页,当前为第2页。  1、设计数据挖掘算法;  决策树;  数据关联;  神经元算法;  2、对挖掘结果进行深入解释和分析  由此可以看见在不不同的产地,由于地理因素和特产药品的原因,在药品相关的植物盛产区,进货比较便宜。  可以分析出,不同的消费人群对于同类的药品的购买需求,对于同样的功能的药,药存储不同价格的种类,以满足广大消费者的需求。  可以分析以前的销售结果,哪类、什么价格的更受消费者欢迎,方便以后进货。  四、 总结  通过自己的实践,对数据挖掘有了新的认识。简单来说,数据挖掘是基于"归纳"的思路,从大量的数据中(因为是基于归纳的思路,因此数据量的大小很大程度上决定了数据挖掘结果的鲁棒性)寻找规律,为决策提供证据。从这种角度上来说,数据挖掘可能并不适合进行科学研究,因为从本质上来说,数据挖掘这个技术是不能证明因果的,以一个最典型的例子来说,例如数据挖掘技术可以发现啤酒销量和尿布之间的关系,但是显然这两者之间紧密相关的关系可能在理论层面并没有多大的意义。不过,仅以此来否定数据挖掘的意义,显然就是对数据挖掘这项技术价值加大的抹杀,显然,数据挖掘这项技术从设计出现之初,就不是为了指导或支持理论研究的,它的重要意义在于,它在应用领域体现出了极大地优越性。一下是我参阅资料总结的设计数据挖掘的步骤:数据挖掘分析报告全文共3页,当前为第3页。数据挖掘分析报告全文共3页,当前为第3页。   理解数据和数据的来源   获取相关知识与技术   整合与检查数据   去除错误或不一致的数据。   假设数据模型。   实际数据挖掘工作(data mining)。   测试和验证挖掘结果(testing and verfication)。   解释和应用(interpretation and use)。  由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。 数据挖掘分析报告全文共3页,当前为第2页。 数据挖掘分析报告全文共3页,当前为第2页。 数据挖掘分析报告全文共3页,当前为第3页。 数据挖掘分析报告全文共3页,当前为第3页。 数据挖掘分析报告 1

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值