1、简答题
1.1属性的类型的类型有哪些,不同的属性类型各自有什么特点?有什么典型例子?允许什么操作?
答:分类的(定性的)属性类型:(1)标称:
特点: 标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=、¹)
例子:邮政编码、雇员ID号、眼球颜色、性别
操作:众数、熵、列联相关、c2检验
(2)序数
特点:序数属性的值提供足够的信息确定对象的序(<,>)
例子:矿石硬度、{好,较好,最好}、成绩、街道号码
操作:中值、百分位、秩相关、游程检验、符号检验
数值的(定量的)属性类型:(1)区间
特点:对于区间属性,值之间的差是有意义的,即存在测量单位(+,-)
例子:日历日期、摄氏或华氏温度
操作:均值、标准差、皮尔逊相关、t和F检验
(2)比率
特点:对于比率变量,差和比率都是有意义的
(*,/)
例子:绝对温度、货币量、计数、年龄、质量、长度、电流
操作:几何平均、调和平均、百分比变差
1.2 数据集的一般特性有哪些?
答:数据集的一般特性:维度、稀疏性、分辨率
1.3 数据集中出现遗漏值的原因一般有哪些?如何处理遗漏值?
答:原因:信息没有收集到;属性不适用于所有情况。
处理方法:删除数据对象或属性; 估计遗漏值; 分析时忽略遗漏值。
1.4简述数据预处理中的常见技术及其基本概念。
答:数据与处理中的常见技术:
(1)聚集:将两个或多个对象合并成单个对象。
(2)抽样:是一种选择数据对象子集进行分析的常用方法。
(3)维归约:数据集包含大量特征。
(4)特征子集选择:降低维度的另一种方法是仅仅使用特征的一个子集。
(5)特征构造:原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法 ,由原特征构造的新特征可能比原特征更有用 。
(6)离散化和二元化:将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。
(7)属性变换:指用于变量的所有值的变换。对于每个对象,变换都作用于该对象的变量值。
1.5 分情况说明简单属性p、q的相似度和相异度如何度量。
答:p、q的相似度和相异度:
2、计算题(结果可以包含根号):
x=[1,0,1,0,1,0,1],y=[1,1,0,0,1,0,0],两者之间的简单匹配系数为(4/7)
x=[1,0,1,0,1,0,1],y=[1,1,0,0,1,0,0],两者之间的Jaccard相似性系数为(2/5)
x=[1,0,3,0,1,0,1],y=[1,1,0,2,1,0,0],两者之间的欧几里得距离为(√15)
x=[1,0,3,0,1,0,1],
y=[1,1,0,2,1,0,0],两者之间的夹角余弦相似度为(1/√21)
3、代码题:编程实现任意给定两个相同维度的向量之间的欧氏距离计算ComptDist_1(x,y)。
输入:两个任意k维向量x和y,其中k的值随由数据决定。如x=[3,20,3.5], y=[-3,34,7]。
(备注:代码粘贴在此处)
function d=ComptDist_1(x,y)
d=0;
[ax,ay]=size(x);
for i=1:max(ax,ay)
d=d+(x(i)-y(i))^2;
end
d=sqrt(d);
4、代码题:编程实现任意给定两个相同维度的向量之间的夹角余弦相似度计算ComptDist_2(x,y)。
输入:两个任意k维向量x和y,其中k的值随由数据决定。如x=[3,20,3.5], y=[-3,34,7]。
(备注:代码粘贴在此处)
function cos=ComptDist_2(x,y)
[ax,ay]=size(x);
cos=0;
cos1=0;
x1=0;
y1=0;
for i=1:max(ax,ay)
cos1=cos1+x(i)*y(i);
x1=x1+(x(i)^2);
y1=y1+(y(i)^2);
end
cos=cos1/(sqrt(x1*y1));
5、代码题:编程实现任意给定两个相同维度的向量之间的Jaccard系数计算ComptDist_3(x,y)。
输入:两个任意k维向量x和y,其中k的值随由数据决定。如。
(备注:代码粘贴在此处)
function jaccard=ComptDist_3(x,y)
[ax,ay]=size(x);
f11=0;
f01=0;
f10=0;
for i=1:max(ax,ay)
if (x(i)==0&&y(i)==1)
f01=f01+1;
end
if (x(i)==1&&y(i)==1)
f11=f11+1;
end
if (x(i)==1&&y(i)==0)
f10=f10+1;
end
end
jaccard=f11/(f11+f10+f01);