【20200326】 数据挖掘课业打卡三之数据质量
叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!
![在这里插入图片描述](https://img-blog.csdnimg.cn/202003012210578.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzNTQzNzg5,size_16,color_FFFFFF,t_70#pic_center)
数据挖掘课业打卡三之数据质量
一、单选题
1、下列说法中错误的是:
A、噪声是测量误差的随机部分
B、数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。
C、通常由于不同的数据源合并时造成重复数据的产生
D、离群点不可能是合法的数据对象或值
正确答案: D
关于离群点
:
2、下列选项中不属于数据预处理方法的是
A、维归约
B、聚类
C、离散化与二元化
D、属性变换
正确答案: B
关于数据预处理方法
:
3、下列说法中错误的是:
A、维归约是通过创建新属性,将一些旧属性合并在一起来降低数据集的维度值
B、通过聚集操作,对象或属性群的行为通常比单个对象或属性的行为更加稳定;并且聚集操作不会丢失有趣的细节
C、之所以可以进行特征子集选择,是因为特征中通常包含冗余特征和不相关特征
D、特征创建方法包括:特征提取、映射数据到新的空间、特征构造
正确答案: B
关于聚集
:
二、填空题
向量x=[3,2,3,1],y=[1,4,5,3],两者之间的欧几里得距离为____。
正确答案:4
解析:可以直接运用公式算得,也可自己编写函数算得;
三、判断题
1、通常,信用卡盗刷的交易记录在全体信用卡交易的事务数据中,可以视为是离群点。
正确答案:√
2、离群点可以是合法的数据对象或值。
正确答案:√
3、数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。
正确答案:√
4、维归约和特征子集选择这两种操作都可以达到降低数据维度的效果。
正确答案:√
5、对变量进行标准化/规范化,就是创建一个新的变量,它具有均值0和标准差0。
正确答案:×
知识点汇总
1、数据中可能存在的问题
(1)噪声和伪像
(2)离群点
(3)遗漏值
(4)不一致的值
(5)重复的值
2、数据预处理方法
(1)聚集(Aggregation)
(2)抽样(Sampling)
抽样常用于数据的事先调查和最终的数据分析。
(3)维归约(Dimensionality Reduction)
通过创建新属性,将一些旧属性合并在一起来降低数据集的维
度。
(4)特征子集选择(Feature subset selection)
降低维度的另一种方法是仅仅使用特征的一个子集。
(5)特征构造(Feature creation)
常常可以由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息。
(6)离散化与二元化(Discretization and Binarization)
(7)属性变换(Attribute Transformation)
属性变换是指用于变量的所有值的变换。对于每个对象,变换都作
用于该对象的变量值。
3、关于欧几里得距离
:
函数实现:
function dis = myEulidean(A,B)
[ax,ay]=size(A);
[bx,by]=size(B);
if (ax>1 && ay>1)||(bx>1 && by >1)
error('输入中存在非向量');
elseif (ax>ay) && (bx<by)
temp=bx;
bx=by;
by=temp;
if (ax~=bx)||(ay~=by)
error('向量长度不统一');
end
elseif (ax~=bx)||(ay~=by)
error('向量长度不统一');
end
dis=0;
for i=1:max(ax,ay)
dis=dis+(A(i)-B(i))^2;
end
dis=sqrt(dis);
end
Ending!
更多课程知识学习记录随后再来吧!
就酱,嘎啦!
注:
我们愈是学习,愈觉得自己的贫乏。 —— 雪莱