大数据资料整理

最新推荐文章于 2020-07-16 19:32:57 发布

hello-elena

最新推荐文章于 2020-07-16 19:32:57 发布

阅读量2.4k

点赞数

分类专栏：数据结构

本文链接：https://blog.csdn.net/l1l2l3q1q2q3/article/details/51728067

版权

数据结构专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.大数据概念

Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）、Veracity（真实性）

大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

2.数据库和数据仓库

设计：数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。

数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。

校验：数据仓库不需要实时的校验。数据库需要实时的校验

数据库支持大量的并行，数据仓库支持少量的并行计算

3.什么是数据挖掘

从大量的不完整的或者存在噪声的数据里自动提取隐藏的有意思的用用的魔术的过程就叫做数据挖掘。

4.传统的数据挖掘的应用

商务智能决策支持，客户关系管理系统，企业资源规划，大数据

5.数据挖掘的主要技术

分类，聚类，关联规则，回归分析

6.分类器

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型（即我们通常所说的分类器(Classifier)）。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个，从而可以应用于数据预测。总之，分类器是数据挖掘中对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

如何评价分类器

根据混淆矩阵和ROC曲线

在分类器设计过程中，如何评价分类器至关重要，一个好的评价指标更有利于我们对分类模型进行优化；同时，好的分类器评价指标要求其充分反应出分类器对问题的解决能力，也更容易向使用者、客户展示交互。

在分类问题中，一个实例可能被判定为一下四种类型之一：

TP(True Positive)：被模型预测为正的正样本；

FP(False Positive)：被模型预测为正的负样本；

FN(False Negative)：被模型预测为负的正样本；

TN(True Negative)：被模型预测为负的负样本；

由这四种类型可以得到一个混淆矩阵(Confusion Matrix)：

混淆矩阵：混淆矩阵用于监督学习，显示了一个分类器可能遇到的所有情况，反应了预测值和真实值之间的关系，通过计算精度评价分类

Confusion Matrix		Predicted
Confusion Matrix		Negative	Positive
Actual	Negative	TN	ŸFP
Actual	Positive	FN	TP

基于以上混淆矩阵，可以引申出一下指标进一步评价分类器性能：

准确率(Aaccuracy)：对整个样本集的判定能力，即将正的判定为正、负的判定为负，A=(TP+TN)/(TP+FN+FP+TN)；

灵敏度(Sensitivity)：将正样本预测为正样本的能力，Sensitivity=TP/(TP+FN)；

特异度(Specificity)：将负样本预测为负样本的能力，Specificity=TN/(TN+FP)；

ROC(Receiver Operating Charateristic)：ROC的主要分析工具为画在ROC空间的曲线（如下图），横轴为1- Specificity，纵轴为Sensitivity。在分类问题中，一个阀值对应于一个特异性及灵敏度，并在ROC空间描出一个点P，当阀值连续移动时，P点也随即移动最终绘成ROC曲线。ROC良好的刻画了不同阀值对样本的分辨能力，也同时反应出对正例和对反例的分辨能力，方便使用者根据实际需求选用合适的阀值。一个好的分类模型要求ROC曲线尽可能靠近图形的左上角；