数据挖掘第二章的题目+Matlib

1、简答题

1.1属性的类型的类型有哪些,不同的属性类型各自有什么特点?有什么典型例子?允许什么操作?

答:分类的(定性的)属性类型:(1)标称:

特点: 标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=、¹)

例子:邮政编码、雇员ID号、眼球颜色、性别

操作:众数、熵、列联相关、c2检验

(2)序数

特点:序数属性的值提供足够的信息确定对象的序(<,>)

例子:矿石硬度、{好,较好,最好}、成绩、街道号码

操作:中值、百分位、秩相关、游程检验、符号检验

数值的(定量的)属性类型:(1)区间

特点:对于区间属性,值之间的差是有意义的,即存在测量单位(+,-)

例子:日历日期、摄氏或华氏温度

操作:均值、标准差、皮尔逊相关、tF检验

(2)比率

特点:对于比率变量,差和比率都是有意义的

(*,/)

例子:绝对温度、货币量、计数、年龄、质量、长度、电流

操作:几何平均、调和平均、百分比变差

 

1.2 数据集的一般特性有哪些?

答:数据集的一般特性:维度、稀疏性、分辨率

 

1.3 数据集中出现遗漏值的原因一般有哪些?如何处理遗漏值?

答:原因:信息没有收集到;属性不适用于所有情况。

    处理方法:删除数据对象或属性;  估计遗漏值;  分析时忽略遗漏值。

 

1.4简述数据预处理中的常见技术及其基本概念。

答:数据与处理中的常见技术:

  (1)聚集将两个或多个对象合并成单个对象。

  (2)抽样:是一种选择数据对象子集进行分析的常用方法。

 (3)维归约:数据集包含大量特征。

  (4)特征子集选择:降低维度的另一种方法是仅仅使用特征的一个子集。

(5)特征构造:原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法 ,由原特征构造的新特征可能比原特征更有用 。

  (6)离散化和二元化:将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。

(7)属性变换:指用于变量的所有值的变换。对于每个对象,变换都作用于该对象的变量值。

 

 

1.5 分情况说明简单属性p、q的相似度和相异度如何度量。

答:p、q的相似度和相异度:

 

 

 

 

 

2、计算题(结果可以包含根号):

x=[1,0,1,0,1,0,1],y=[1,1,0,0,1,0,0],两者之间的简单匹配系数为(4/7

x=[1,0,1,0,1,0,1],y=[1,1,0,0,1,0,0],两者之间的Jaccard相似性系数为(2/5

x=[1,0,3,0,1,0,1],y=[1,1,0,2,1,0,0],两者之间的欧几里得距离为(√15)

x=[1,0,3,0,1,0,1],

y=[1,1,0,2,1,0,0],两者之间的夹角余弦相似度为(1/√21

 

 

3、代码题:编程实现任意给定两个相同维度的向量之间的欧氏距离计算ComptDist_1(x,y)。

输入:两个任意k维向量x和y,其中k的值随由数据决定。如x=[3,20,3.5], y=[-3,34,7]。

(备注:代码粘贴在此处)

function d=ComptDist_1(x,y)

d=0;

[ax,ay]=size(x);

for i=1:max(ax,ay)

    d=d+(x(i)-y(i))^2;

end

d=sqrt(d);

 

4、代码题:编程实现任意给定两个相同维度的向量之间的夹角余弦相似度计算ComptDist_2(x,y)。

输入:两个任意k维向量x和y,其中k的值随由数据决定。如x=[3,20,3.5], y=[-3,34,7]。

(备注:代码粘贴在此处)

function cos=ComptDist_2(x,y)

[ax,ay]=size(x);

cos=0;

cos1=0;

x1=0;

y1=0;

for i=1:max(ax,ay)

    cos1=cos1+x(i)*y(i);

    x1=x1+(x(i)^2);

    y1=y1+(y(i)^2);

end

cos=cos1/(sqrt(x1*y1));

 

5、代码题:编程实现任意给定两个相同维度的向量之间的Jaccard系数计算ComptDist_3(x,y)。

输入:两个任意k维向量x和y,其中k的值随由数据决定。如。

(备注:代码粘贴在此处)

function jaccard=ComptDist_3(x,y)

[ax,ay]=size(x);

f11=0;

f01=0;

f10=0;

for i=1:max(ax,ay)

    if (x(i)==0&&y(i)==1)

        f01=f01+1;

    end

    if (x(i)==1&&y(i)==1)

         f11=f11+1;

    end

    if (x(i)==1&&y(i)==0)

         f10=f10+1;   

    end  

end

jaccard=f11/(f11+f10+f01);

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值