文章目录
- 数据挖掘的概念
- 数据挖掘的意义
- 数据挖掘的对象
- 数据挖掘的技术
- 大数据的4V特性概念
数据挖掘的概念
简单来讲就是资料探勘、数据采矿。
数据挖掘一般指的是大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现的。
主要目标是从数据中挖取隐藏的信息。挖取的过程中会采用许多技术,包括运用一系列统计方法、模式识别、机器学习(归根结底都是统计方法啦)等等技术,来实现挖取隐藏信息的目的。
数据挖掘的意义
数据挖掘能获得大量数据,并可以广泛使用。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
1.教育领域
数据挖掘技术的应用已经渗入到教育教学的各个方面,如支持教育科学决策、实施个性化教育、对学生的学业成绩进行评估等。数据挖掘的实际应用逐渐突破了传统的教学模式,改善了教学效果,促进了教学质量的提升。
2.风控领域
数据挖掘作为深层次的数据信息分析方法,能够对各种因素之间隐藏的内在联系进行全面分析。目前在风控领域可应用于信贷风险评估、交易欺诈识别、黑产防范及消费信贷四个方面,通过风险预警,可以让风险管理者提前做好准备,从而为决策提供参考信息。
3.医疗领域
目前,医院已经积累了涵盖患者、费用、药物以及相关管理信息等数据资源,数量庞大且类型复杂。数据挖掘技术则能够帮助医院从中提取出有价值的信息,满足医疗服务各个环节的需求。其在医疗成本的预测和控制、慢性疾病的预警、医疗信息质量管理等方面,都起到了明显的正向作用。
4.其他
数据挖掘技术还可能带来隐私披露、数据滥用等一系列问题,因此,必须规范数据挖掘技术的使用。同时,需要利用加密、访问控制和网络安全机制保护技术等技术手段来保护信息安全,以保证数据信息不被窃取、更改或秘密访问。
数据挖掘的对象
**数据库数据**
顾名思义,就是存储在数据库中的数据。这里面的数据库主要指关系型数据库。
**数据仓库**
数据仓库是从多个数据源收集汇总的一个数据存储库,跟事务型数据库的不同点在于它是面向主题的,有一定的分类和聚合。并且分为度量值和维度值即事实表和维度表这样的区分,便于多维数据分析(OLAP)。
**事务数据**
事务数据库的每个记录代表一个事务,就是我们常见的业务系统,订单系统。例如京东的一次购物就有一条购物信息的记录,这就是事务。
**其他类型的数据**
除了以上类型的数据之外的其他数据,包括时间相关或序列相关的数据、地理空间的数据、文本数据以及图片和音视频等。
数据挖掘的技术
**统计学**
研究数据的收集、分析、解释和表示。运用统计模型对数据建模、使用假设检验来验证模型等。
**机器学习**
监督学习(supervised learning)
基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。
无监督学习(unsupervised learning)
本质上是聚类的同义词。学习过程是无监督的,因为输入的实例没有类标记。
半监督学习(semi-supervised learning)
在学习模型时,使用标记的和未标记的实例。标记的模型用来学习类模型,未标记的实例用来进一步改进类边界。
主动学习(active learning)
让用户在学习过程中扮演主动角色,让用户对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。给定要求标记数量的约束。目的是通过主动的从用户获取知识来提高模型质量。
**信息检索(IR)**
是搜索文档或文档中信息的科学。假定搜索的数据是无结构的,主要采用关键词。
大数据的4V特性概念
简单来说大数据的4V,就是“容量大Volume”“多样性Variety”“价值高Value”“速度快Velocity”。
(数据量)大这是一方面,也有数据量不大但是具有高度的(多样性和复杂性)从而能衍生出有(高度可分析价值的数据)都是大数据,还有就是(速度)能够快速分析出结果并且加以多方位价值利用也是大数据的衡量标准之一。