决策树算法(信贷中常用来寻找规则)
1、算法原理
1.1 ID3(多叉树分类)
信息熵: E n t ( D ) = − ∑ i = 1 n p i l o g p i Ent(D)=-\sum_{i=1}^np_ilogp_i Ent(D)=−∑i=1npilogpi其中n为类别, p i p_i pi为每个类别的概率, D D D为某个特征,越小越确定
信息增益: G a i n ( D , a ) = E n t ( D ) = − ∑ v = 1 v ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)=-\sum_{v=1}^v\frac{|D^v|}{|D|}Ent(D^v) Gain(D,a)=Ent(D)=−∑v=1v∣D∣∣Dv∣Ent(Dv)越大纯度提升越大,所以分裂 a r g m a x G a i n ( D , a ) argmaxGain(D,a) argmaxGain(D,a)
eg.15个样本,9个1和6个0;有个特征A(取值 A 1 A_1 A1、 A 2 A_2 A2、 A 3 A_3 A3,其中 A 1 A_1 A1(3个1,2个0),其中 A 2 A_2 A2(2个1,3个0)其中 A 3 A_3 A3(4个1,1个0))
E n t ( A ) = − ( 9 15 ∗ l o g 2 9 15 + 6 15 ∗ l o g 2 6 15 ) = 0.971 Ent(A)=-(\frac{9}{15}*log_2\frac{9}{15}+\frac{6}{15}*log_2\frac{6}{15})=0.971 Ent(A)=−(159∗log215