大数据资料整理

1.大数据概念

Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)

大数据”是需要新处理模式才能具有更强的决策力洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产


2.数据库和数据仓库

设计:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 

校验:数据仓库不需要实时的校验。数据库需要实时的校验

数据库支持大量的并行,数据仓库支持少量的并行计算


3.什么是数据挖掘

从大量的不完整的或者存在噪声的数据里自动提取隐藏的有意思的用用的魔术的过程就叫做数据挖掘。


4.传统的数据挖掘的应用

商务智能 决策支持,客户关系管理系统,企业资源规划,大数据


5.数据挖掘的主要技术

分类,聚类,关联规则,回归分析


6.分类器

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

如何评价分类器

根据混淆矩阵和ROC曲线

  在分类器设计过程中,如何评价分类器至关重要,一个好的评价指标更有利于我们对分类模型进行优化;同时,好的分类器评价指标要求其充分反应出分类器对问题的解决能力,也更容易向使用者、客户展示交互。

      在分类问题中,一个实例可能被判定为一下四种类型之一:

    TP(True Positive):被模型预测为正的正样本;

  FP(False Positive):被模型预测为正的负样本;

  FN(False Negative):被模型预测为负的正样本;

   TN(True Negative):被模型预测为负的负样本;

     由这四种类型可以得到一个混淆矩阵(Confusion Matrix):

混淆矩阵:混淆矩阵用于监督学习,显示了一个分类器可能遇到的所有情况,反应了预测值和真实值之间的关系,通过计算精度评价分类

Confusion Matrix

Predicted

Negative

Positive

Actual

Negative

 TN

 ŸFP

Positive

 FN

 TP


        基于以上混淆矩阵,可以引申出一下指标进一步评价分类器性能:

        准确率(Aaccuracy):对整个样本集的判定能力,即将正的判定为正、负的判定为负,A=(TP+TN)/(TP+FN+FP+TN);

       灵敏度(Sensitivity):将正样本预测为正样本的能力,Sensitivity=TP/(TP+FN);

       特异度(Specificity):将负样本预测为负样本的能力,Specificity=TN/(TN+FP);

       ROC(Receiver Operating Charateristic):ROC的主要分析工具为画在ROC空间的曲线(如下图),横轴为1- Specificity,纵轴为Sensitivity。在分类问题中,一个阀值对应于一个特异性及灵敏度,并在ROC空间描出一个点P,当阀值连续移动时,P点也随即移动最终绘成ROC曲线。ROC良好的刻画了不同阀值对样本的分辨能力,也同时反应出对正例和对反例的分辨能力,方便使用者根据实际需求选用合适的阀值。一个好的分类模型要求ROC曲线尽可能靠近图形的左上角;


ROC曲线(图片引子维基百科)

        AUC(Area Under roc Curve)值指处于ROC曲线下方的那部分面积大小,AUC越大,反应分类器的性能越好;

一个理想的分类模型其AUC值为1,通常其值在0.5至1.0之间,较大的AUC代表了分类模型具备较好的性能。


7.云计算的概念

1.需要都少买多少 2.把软件平台基础设施均当作一种服务


8.流行的并行计算的模型

PRAM模型,BSP模型,LogP模型


9.在真实的世界中数据挖掘的挑战

数据的收据工作量大 一般情况下数据会很脏 不完整 不一致 不平衡 噪声

10. 怎样处理丢失数据

  忽略

手动填补丢失值

自动填补丢失值


11.如何检验异常值

概率分布采用统计检验 距离度量原理任何簇的点,密度局部利群点因子


12.处理不平衡数据集的主要任务

一准确度度为评价指标的分类方法不能很好的处理不平衡数据集


13.为什么特征选择如此器重要

数据包含有很多冗余的,不相关的特征。特征选择可以提高模型的可解释性,导致更短的训练时间,能够避免过拟合现象从而增强可推广性。


14.如何选择表征主要信息的特征

逐步向前选择:有空属性开始,每次选择原属性集中最好的属性

逐步向后删除:

逐步向前选择和逐步向前删除的组合:

决策树归纳:不出现在树中的属性假设是不相关的,出现的属性形成归约后的属性子集


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值