1.什么是数据挖掘?并简述数据挖掘的基本任务。
数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,
帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
2.简述数据挖掘的建模过程。
1、目标定义
2、数据采集
3、数据整理
4、构建模型
5、模型评价
6、模型发布
3.抽取数据的标准是什么?并列举三种数据抽样方法。
抽取数据的标准:
1、相关性
2、可靠性
3、有效性
数据抽样方法:
1、随机抽样
2、等距抽样
3、分层抽样
4、按起始顺序抽样
5、分类抽样
4.数据探索和预处理的目的是什么?数据探索主要包括哪些方面?
数据探索和预处理的目的是保证样本数据的质量,从而为保证模型质量打下基础。
数据探索主要包括异常值分析、缺失值分析、相关分析、周期性分析等。
5.为什么要做数据预处理?并列举数据预处理主要包括的任意四个方面?
由于采样数据中常常包含许多含有噪声、不完整甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。
数据预处理主要包括数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。
1.简述缺失值的影响。
数据挖掘建模将丢失大量的有用数据;数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握;
包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
2.对缺失值做简单统计分析一般包括哪几方面?
统计缺失值的变量个数
统计每个变量的未缺失数
统计变量的缺失数及缺失率
3.异常值分析方法主要有哪些?
简单统计量分析
3σ原则
箱型图分析
- 简述做频率分布分析的步骤。
第一步:求极差
第二步:决定组距与组数
第三步:决定分点
第四步:列出频率分布表
第五步:绘制频率分布直方图
- 做频率分布分析时,遵循的主要原则有哪些?
1、各组之间必须三相互排斥的
2、各组必须将所有的数据包含在内
3、各组的组宽最好相等
3.什么是相对数比较?列举三种相对数比较方法。
相对数比较
它是由两个有联系的指标对比计算、用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为以下几种:
1)结构相对数
2)比例相对数
3)比较相对数
4)强度相对数
5)计划完成程度相对数
6)动态相对数
4.什么是中位数?什么是变异系数?
中位数是将一组观擦指从小到大按顺序排列,位于中间的那个数据。级全部数据中,小于和大于中位数的数据个数相等。
变异系数度量标准差相对于均值的离中趋势
5.什么是极差?什么是四分位数间距?
极差=最大值-最小值
极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据是如何分布的
四分位数间距四分位数包括上分为数和下四分位数。将所有数值由小到大排列并成4等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位置)的数值是中位数,处于第三个分割点的数值是上四分位数。
四分位数间距是指四分位数Qu与夏四分位数Ql之差,其中包含了全部观察值得一半。其值越大,说明数据的变异程度越多大;反之,说明变异程度越小。
1.什么是数据清洗?
答:
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
2.请对数据插补方法中的回归方法作方法描述。
答:
回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。
与前述几种插补方法比较,该方法利用了数据库中尽量多的信息,而且一些统计软件(如Stata)也已经能够直接执行该功能。
但该方法也有诸多弊端,第一,这虽然是一个无偏估计,但是却容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
3.列举两种异常值处理的方法,并分别对其作方法描述。
异常值处理方法
方法描述
删除含有异常值的记录
直接将含有异常值的记录删除。
视为缺失值
将异常值视为缺失值,利用缺失值处理的方法进行处理。
平均值修正
可用前后两个观测值的平均值修正该异常值。
不处理
直接在具有异常值的数据集上进行挖掘建模。
1.什么是最小-最大规范化?什么是零-均值规范化?
最小-最大规范化:也称为离差标准化,是对原始数据的线性变换,使结果映射到[0,1]之间。转换函数如:
其中为样本数据的最大值,min为样本数据的最小值,max-min为极差
零—均值规范化:也叫标准差标准化,经过处理的数据的平均数为0,标准差为1.转化函数为:
2.为什么要做连续属性离散化?常用的离散化方法有哪些?
一些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。常常需要将连续属性变换成分类属性,即连续属性离散化。
常用的离散化方法
常用的无监督离散化方法有:等宽法、等频法、基于聚类分析的方法。
3.什么是数据规约?数据规约有何意义?
数据规约是将海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量小很多。
数据规约的意义在于,通过数据规约可以达到:
降低无效、错误数据对建模的影响,提高建模的准确性
少量且具代表性的数据将大幅缩减数据挖掘所需的时间
降低储存数据的成本
1.什么是分类?什么是预测?