简答题
1. SVM的优缺点
-
优点:
【1】使用内积核函数向高维空间进行非线性映射
【2】对特征空间进行超平面的划分,另外,最大化边界是SVM的核心思想
【3】避免维度灾难
【4】对于小样本好 -
缺点:
【1】对大样本不好
【2】多分类不方便,要解决的策略:一对一,一对多,组合二分类,SVM决策树
2. Kmeans的优缺点
-
优点:
【1】简单,好,复杂度:O(knt),k聚类数,n样本数量,t迭代次数
【2】对于类和类明显区别明显的,好! -
缺点
【1】对于类和类之间不明显的,不好!
【2】抗噪能力差
【3】无法解决离群异常点的问题
3. K中心点相对于Kmeans的改进之处
解决了离群特异的问题
4. 决策树的生成过程
计算信息熵的时候,信息熵越小,信息的效益越大。
关于某个属性的信息熵的计算公式:
假设现在有这么一个表:
属性1 | 属性2 | 类别 |
---|---|---|
假设属性1的可能是两种:A或者B
E 属 性 1 = A = − 数 量 属 性 1 = A 且 类 别 = ? 数 量 属 性 1 = A l o g 2 ( & ) − . . . − . . . − E_{属性1=A} =- \frac{数量_{属性1=A且类别=?}}{数量_{属性1=A}} log_2(\&)-...-...- E属性1=A=−数量属性1=A数量属性1=A且类别=?log2(&)−...−...−
那么:
e
n
t
r
o
p
y
(
S
,
属
性
1
)
=
数
量
属
性
1
=
A
总
样
本
数
∗
E
属
性
1
=
A
+
.
.
.
.
entropy(S,属性1) = \frac{数量_{属性1=A}}{总样本数}*E_{属性1=A}+....
entropy(S,属性1)=总样本数数量属性1=A∗E属性1=A+....
角色:
- sample:样本list
- at_list:属性的list
def Gen_tree(samples, at_list):
N = node()
if all_in_same_Label(samples) == True:
return N # 则返回N作为叶节点,并且标记为对应的label value, 程序结束
if len(at_size) == 0:
return N # 则返回N作为叶节点,并且标记为对应的label value
test_at = max_info(at_list) # 选取最大信息增益的属性作为当前的test_at
N = test_at # 标记当前节点为test_at
for op_value in test_at:
N.branch(condition:test_at == op_value).grow()
si = find_from_samples(samples, test_at = op_value)
if len(si) == 0:
N.branch(condition:test_at == op_value).end()
else:
Gen_tree(samples, at_list.remove(test_at))
5. SOM算法的过程
- 用随机数初始化权重,生成初始优胜域
- 接受输入向量
- 计算 x i x_i xi和 w i w_i wi的点积,寻找优胜权重点
- 利用学习率更新优胜域
6. 密度聚类算法的原理+名词
局部密度:
x
(
d
)
=
{
1
,
d
<
R
0
,
d
>
=
R
ρ
=
∑
x
(
d
)
x(d) = \begin{cases}1,d<R\\0,d>=R\end{cases} \\ \rho = \sum x(d)
x(d)={1,d<R0,d>=Rρ=∑x(d)
距离阈值: θ i = min j : ρ i > ρ j ( d i j ) \theta_i = \min_{j:\rho_i>\rho_j}(d_ij) θi=j:ρi>ρjmin(dij)
聚类中心:大局部密度和大距离阈值的点
异端点:小局部密度和距离高密度点远的点
原理:利用低密度区域对高密度区域进行分割。
过程:
- 计算每个点到高密度点的距离和每个点的局部密度
- 找出聚类中心和异端点
(无需优化迭代)
7. 贝叶斯决策准则的优缺点
-
优点:
稳定,强壮,简单 -
缺点:
一旦,条件不独立,GG
8. SOM的拓扑结构
【1】一维的:
【2】二维的
9. C4.5相对于ID3的优胜之处
【1】用了信息增益比例
【2】扩充到数值属性
【3】处理具有缺失样本的时候用平均值代替
【4】K次迭代交叉校验
计算题
1. 卡方检验
期望是:横平均
打横计算期望,然后计算:
x 2 = ∑ ( x i − x 期 望 ) 2 x 期 望 x^2 = \sum \frac{(x_i - x_{期望})^2}{x_{期望}} x2=∑x期望(xi−x期望)2
查表,解决。
2. 贝叶斯分类
第一步,你先把标签筛选出来,然后,计算
- P ( C ∣ L a b e l ) = S u m C & L a b e l S u m L a b e l P(C|Label)=\frac{Sum_{C\&Label}}{Sum_{Label}} P(C∣Label)=SumLabelSumC&Label
- P ( L a b e l ) = S u m L a b e l S u m P(Label) = \frac{Sum_{Label}}{Sum} P(Label)=SumSumLabel
计算: P ( L a b e l ) ∗ P ( C i ∣ L a b e l ) . . . P(Label)* P(C_i|Label)... P(Label)∗P(Ci∣Label)...
看哪种可能性更大
3. Kmeans的计算过程
【1】随机得出一个数作为中心点
【2】计算每一个样本点到中心点的欧氏距离
【3】计算每一个类的平均值
【4】得到的新的中心,迭代…
4. K中心点的计算过程
【1】你先随机选择样本点作为中心点
【2】然后计算样本点到中心点的曼哈顿距离
【3】然后交换可能性,得到新的中心点策略
【4】计算在新的中心点策略下,每一种策略的代价和当前策略的代价的差
【5】采取负最大的那个代价差作为新的策略,然后迭代…
5. Apriori算法计算过程
先找出一级频繁项集,二级的,三级的,注意,在从二级到三级的时候,我们要检查:非频繁剪枝问题。然后罗列出频繁项集表,分析规则,注意,规则的两者 A → B A\rightarrow B A→B,A和B必须处于同一个频繁项集当中,而且两者恰好能组成母集。
c o n f = s u m 母 s u m A conf = \frac{sum_{母}}{sum_A} conf=sumAsum母
6. 分箱,规范化的计算过程
-
等宽分箱:我们先求出最大值和最小值之间的差值是多大,然后根据要求的箱数,计算区间大小,然后分。不能保证每个箱子的样本数量一样多。
-
等深分箱:先对数据进行排序,然后根据要求的箱数,进行数量上划分,能做到:基本满足每个箱子的样本数量一样多。
-
Min-Max
V = D n e w D o l d ( V − m i n o l d ) + m i n n e w V = \frac{D_{new}}{D_{old}}(V-min_{old})+min_{new} V=DoldDnew(V−minold)+minnew -
Z-Score
V = V − V ˉ V 标 准 差 V=\frac{V-\bar{V}}{V_{标准差}} V=V标准差V−Vˉ -
小数定标:
注意,定标出来的,不能等于1.
[9,99] = [0.09,0.99]
[9,100] = [0.09, 0.1]
7. 距离函数计算(欧式,曼哈顿,切比雪夫,余弦)
假设两个向量: X = { x 1 , x 2 } X=\{x_1,x_2\} X={x1,x2}和 Y = { y 1 , y 2 } Y=\{y_1,y_2\} Y={y1,y2}
-
欧式距离:
D = ( x 1 − y 1 ) 2 + ( x 2 − y 2 ) 2 D=\sqrt{(x_1 - y_1)^2+(x_2 - y_2)^2} D=(x1−y1)2+(x2−y2)2 -
曼哈顿距离:
D = ∣ x 1 − y 1 ∣ + ∣ x 2 − y 2 ∣ D=|x_1 - y_1| + |x_2 - y_2| D=∣x1−y1∣+∣x2−y2∣ -
切比雪夫距离:
D = m a x ( ∣ x 1 − y 1 ∣ , ∣ x 2 − y 2 ∣ ) D=max(|x_1 - y_1| ,|x_2 - y_2|) D=max(∣x1−y1∣,∣x2−y2∣) -
余弦距离:
D = X Y ∣ X ∣ ∣ Y ∣ D = \frac{X Y}{|X||Y|} D=∣X∣∣Y∣XY
8. 贝叶斯信念网络的例子分析题目
(1)没有先验信息,问得心脏病的概率?
解:
能推导出心脏病的无非就是:锻炼事件和饮食事件,
P
(
H
D
=
y
e
s
)
P(HD = yes)
P(HD=yes)
=
0.25
∗
0.7
∗
0.25
+
0.45
∗
0.7
∗
0.75
+
0.55
∗
0.3
∗
0.25
+
0.75
∗
0.3
∗
0.75
=0.25*0.7*0.25+0.45*0.7*0.75+0.55*0.3*0.25+0.75*0.3*0.75
=0.25∗0.7∗0.25+0.45∗0.7∗0.75+0.55∗0.3∗0.25+0.75∗0.3∗0.75
=
0.49
=0.49
=0.49
(2)已知有高血压,问得心脏病的概率?
P ( B P = h i g h ) = 0.5185 P(BP=high)=0.5185 P(BP=high)=0.5185
P
(
H
D
=
y
e
s
∣
B
P
=
h
i
g
h
)
=
P
(
H
D
=
y
e
s
&
B
P
=
h
i
g
h
)
∗
P
(
H
D
=
y
e
s
)
P
(
B
P
=
h
i
g
h
)
P(HD=yes|BP=high)=\frac{P(HD=yes \& BP=high)*P(HD=yes)}{P(BP=high)}
P(HD=yes∣BP=high)=P(BP=high)P(HD=yes&BP=high)∗P(HD=yes)
=
0.85
∗
0.49
0.5185
=\frac{0.85*0.49}{0.5185}
=0.51850.85∗0.49