数据挖掘期末抱佛脚专用 华南农业大学

简答题


1. SVM的优缺点

  • 优点
    【1】使用内积核函数向高维空间进行非线性映射
    【2】对特征空间进行超平面的划分,另外,最大化边界是SVM的核心思想
    【3】避免维度灾难
    【4】对于小样本好

  • 缺点
    【1】对大样本不好
    【2】多分类不方便,要解决的策略:一对一,一对多,组合二分类,SVM决策树


2. Kmeans的优缺点

  • 优点
    【1】简单,好,复杂度:O(knt),k聚类数,n样本数量,t迭代次数
    【2】对于类和类明显区别明显的,好!

  • 缺点
    【1】对于类和类之间不明显的,不好!
    【2】抗噪能力差
    【3】无法解决离群异常点的问题


3. K中心点相对于Kmeans的改进之处

解决了离群特异的问题


4. 决策树的生成过程

计算信息熵的时候,信息熵越小,信息的效益越大。

关于某个属性的信息熵的计算公式:

假设现在有这么一个表:

属性1属性2类别

假设属性1的可能是两种:A或者B

E 属 性 1 = A = − 数 量 属 性 1 = A 且 类 别 = ? 数 量 属 性 1 = A l o g 2 ( & ) − . . . − . . . − E_{属性1=A} =- \frac{数量_{属性1=A且类别=?}}{数量_{属性1=A}} log_2(\&)-...-...- E1=A=1=A1=A=log2(&)......

那么:
e n t r o p y ( S , 属 性 1 ) = 数 量 属 性 1 = A 总 样 本 数 ∗ E 属 性 1 = A + . . . . entropy(S,属性1) = \frac{数量_{属性1=A}}{总样本数}*E_{属性1=A}+.... entropy(S,1)=1=AE1=A+....

角色:

  • sample:样本list
  • at_list:属性的list
def Gen_tree(samples, at_list):
	N = node()
	if all_in_same_Label(samples) == True:
		return N # 则返回N作为叶节点,并且标记为对应的label value, 程序结束
	if len(at_size) == 0:
		return N # 则返回N作为叶节点,并且标记为对应的label value
	test_at = max_info(at_list) # 选取最大信息增益的属性作为当前的test_at
	N = test_at # 标记当前节点为test_at
	for op_value in test_at:
		N.branch(condition:test_at == op_value).grow()
		si = find_from_samples(samples, test_at = op_value)
		if len(si) == 0:
			N.branch(condition:test_at == op_value).end()
		else:
			Gen_tree(samples, at_list.remove(test_at))	

5. SOM算法的过程

  • 用随机数初始化权重,生成初始优胜域
  • 接受输入向量
  • 计算 x i x_i xi w i w_i wi的点积,寻找优胜权重点
  • 利用学习率更新优胜域

6. 密度聚类算法的原理+名词

局部密度:
x ( d ) = { 1 , d < R 0 , d > = R ρ = ∑ x ( d ) x(d) = \begin{cases}1,d<R\\0,d>=R\end{cases} \\ \rho = \sum x(d) x(d)={1,d<R0,d>=Rρ=x(d)

距离阈值: θ i = min ⁡ j : ρ i > ρ j ( d i j ) \theta_i = \min_{j:\rho_i>\rho_j}(d_ij) θi=j:ρi>ρjmin(dij)

聚类中心:大局部密度和大距离阈值的点

异端点:小局部密度和距离高密度点远的点

原理:利用低密度区域对高密度区域进行分割。

过程

  • 计算每个点到高密度点的距离和每个点的局部密度
  • 找出聚类中心和异端点

(无需优化迭代)


7. 贝叶斯决策准则的优缺点

  • 优点
    稳定,强壮,简单

  • 缺点
    一旦,条件不独立,GG



8. SOM的拓扑结构

【1】一维的:
在这里插入图片描述

【2】二维的
在这里插入图片描述


9. C4.5相对于ID3的优胜之处

【1】用了信息增益比例
【2】扩充到数值属性
【3】处理具有缺失样本的时候用平均值代替
【4】K次迭代交叉校验


计算题


1. 卡方检验

期望是:横平均

打横计算期望,然后计算:

x 2 = ∑ ( x i − x 期 望 ) 2 x 期 望 x^2 = \sum \frac{(x_i - x_{期望})^2}{x_{期望}} x2=x(xix)2

查表,解决。


2. 贝叶斯分类

第一步,你先把标签筛选出来,然后,计算

  • P ( C ∣ L a b e l ) = S u m C & L a b e l S u m L a b e l P(C|Label)=\frac{Sum_{C\&Label}}{Sum_{Label}} P(CLabel)=SumLabelSumC&Label
  • P ( L a b e l ) = S u m L a b e l S u m P(Label) = \frac{Sum_{Label}}{Sum} P(Label)=SumSumLabel

计算: P ( L a b e l ) ∗ P ( C i ∣ L a b e l ) . . . P(Label)* P(C_i|Label)... P(Label)P(CiLabel)...

看哪种可能性更大


3. Kmeans的计算过程

【1】随机得出一个数作为中心点
【2】计算每一个样本点到中心点的欧氏距离
【3】计算每一个类的平均值
【4】得到的新的中心,迭代…


4. K中心点的计算过程

【1】你先随机选择样本点作为中心点
【2】然后计算样本点到中心点的曼哈顿距离
【3】然后交换可能性,得到新的中心点策略
【4】计算在新的中心点策略下,每一种策略的代价和当前策略的代价的差
【5】采取负最大的那个代价差作为新的策略,然后迭代…


5. Apriori算法计算过程

先找出一级频繁项集,二级的,三级的,注意,在从二级到三级的时候,我们要检查:非频繁剪枝问题。然后罗列出频繁项集表,分析规则,注意,规则的两者 A → B A\rightarrow B AB,A和B必须处于同一个频繁项集当中,而且两者恰好能组成母集。

c o n f = s u m 母 s u m A conf = \frac{sum_{母}}{sum_A} conf=sumAsum


6. 分箱,规范化的计算过程

  • 等宽分箱:我们先求出最大值和最小值之间的差值是多大,然后根据要求的箱数,计算区间大小,然后分。不能保证每个箱子的样本数量一样多。

  • 等深分箱:先对数据进行排序,然后根据要求的箱数,进行数量上划分,能做到:基本满足每个箱子的样本数量一样多。

  • Min-Max
    V = D n e w D o l d ( V − m i n o l d ) + m i n n e w V = \frac{D_{new}}{D_{old}}(V-min_{old})+min_{new} V=DoldDnew(Vminold)+minnew

  • Z-Score
    V = V − V ˉ V 标 准 差 V=\frac{V-\bar{V}}{V_{标准差}} V=VVVˉ

  • 小数定标:

注意,定标出来的,不能等于1.
[9,99] = [0.09,0.99]
[9,100] = [0.09, 0.1]


7. 距离函数计算(欧式,曼哈顿,切比雪夫,余弦)

假设两个向量: X = { x 1 , x 2 } X=\{x_1,x_2\} X={x1,x2} Y = { y 1 , y 2 } Y=\{y_1,y_2\} Y={y1,y2}

  • 欧式距离:
    D = ( x 1 − y 1 ) 2 + ( x 2 − y 2 ) 2 D=\sqrt{(x_1 - y_1)^2+(x_2 - y_2)^2} D=(x1y1)2+(x2y2)2

  • 曼哈顿距离:
    D = ∣ x 1 − y 1 ∣ + ∣ x 2 − y 2 ∣ D=|x_1 - y_1| + |x_2 - y_2| D=x1y1+x2y2

  • 切比雪夫距离:
    D = m a x ( ∣ x 1 − y 1 ∣ , ∣ x 2 − y 2 ∣ ) D=max(|x_1 - y_1| ,|x_2 - y_2|) D=max(x1y1,x2y2)

  • 余弦距离:
    D = X Y ∣ X ∣ ∣ Y ∣ D = \frac{X Y}{|X||Y|} D=XYXY


8. 贝叶斯信念网络的例子分析题目

在这里插入图片描述
(1)没有先验信息,问得心脏病的概率?

能推导出心脏病的无非就是:锻炼事件和饮食事件,

P ( H D = y e s ) P(HD = yes) P(HD=yes) = 0.25 ∗ 0.7 ∗ 0.25 + 0.45 ∗ 0.7 ∗ 0.75 + 0.55 ∗ 0.3 ∗ 0.25 + 0.75 ∗ 0.3 ∗ 0.75 =0.25*0.7*0.25+0.45*0.7*0.75+0.55*0.3*0.25+0.75*0.3*0.75 =0.250.70.25+0.450.70.75+0.550.30.25+0.750.30.75
= 0.49 =0.49 =0.49

(2)已知有高血压,问得心脏病的概率?

P ( B P = h i g h ) = 0.5185 P(BP=high)=0.5185 P(BP=high)=0.5185

P ( H D = y e s ∣ B P = h i g h ) = P ( H D = y e s & B P = h i g h ) ∗ P ( H D = y e s ) P ( B P = h i g h ) P(HD=yes|BP=high)=\frac{P(HD=yes \& BP=high)*P(HD=yes)}{P(BP=high)} P(HD=yesBP=high)=P(BP=high)P(HD=yes&BP=high)P(HD=yes)
= 0.85 ∗ 0.49 0.5185 =\frac{0.85*0.49}{0.5185} =0.51850.850.49

  • 5
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值