本博文记录决策树相关算法原理,用来对付面试问题…
决策树
决策树信息熵:
e
n
t
r
o
p
y
(
D
)
=
−
∑
i
=
1
n
P
i
l
o
g
2
P
i
entropy(D) = -\sum_{i=1}^n P_ilog_2 P_i
entropy(D)=−∑i=1nPilog2Pi
G
a
i
n
(
A
)
=
e
n
t
r
o
p
y
(
D
)
−
e
n
t
r
o
p
y
A
(
D
)
Gain(A) = entropy(D) - entropy_A(D)
Gain(A)=entropy(D)−entropyA(D)
最大化
G
a
i
n
(
A
)
Gain(A)
Gain(A)
随机森林
多棵决策树,只不过训练集不同。每棵决策树从训练集中有放回地抽取N个样本来训练。最后投票决定分类结果。
Gradient Boosting Tree
还是多棵决策树,只不过后一个树的生成是基于前面树的学习结果生成的。
蚁群算法
随机搜索算法
ita为局部信息,即启发式因子(能见度)。初始时就定下来了。
tor为全局信息,即信息素量。每个迭代都会被更新。
以TSP为例,每次从r城市到s城市的概率为:
当所有蚂蚁都走完各自的路经后,就更新tor:
用本次迭代蚂蚁走过的最优路径来计算的增量。