# 机器学习系列(5)_从白富美相亲看特征预处理与选择(上)

http://blog.csdn.net/longxinchen_ml/article/details/50471682,
http://blog.csdn.net/han_xiaoyang/article/details/50481967

## 5. 特征有效性分析

=20%1%=20$\frac{后验概率}{先验概率}=\frac{20\%}{1\%}=20（倍）$

log()=log()log()$log(\frac{后验概率}{先验概率})=log(后验概率)-log(先验概率)$

log()=log(1)log(1)$log(\frac{后验概率}{先验概率})=log(\frac{1}{先验概率})-log(\frac{1}{后验概率})$

## 7. 特征有效性分析

HY=1%×log(11%)+99%×log(199%)=0.08079$H（Y）=1\%×log(\frac{1}{1\%})+99\%×log(\frac{1}{99\%})=0.08079$。(全文假定对数log的底数取为2)

H(Y|X=)=(0.5/5)×log(1(0.5/5))+(4.5/5)×log(1(4.5/5))=0.46900$H(Y|X=“是高富帅”) = (0.5/5)×log(\frac{1}{(0.5/5)})+(4.5/5)×log(\frac{1}{(4.5/5)}) = 0.46900$

H(Y|X=)=(0.5/95)×log(1(0.5/95))+(94.5/95)×log(1(94.5/95))=0.04741$H(Y|X=“不是高富帅”) = (0.5/95)×log(\frac{1}{(0.5/95)})+(94.5/95)×log(\frac{1}{(94.5/95)}) = 0.04741$

H(Y|X)$H(Y|X)$
=P(X=)×H(Y|X=)+P(X=)×H(Y|X=)$=P(X=“是高富帅”)×H(Y|X=“是高富帅”)+P(X=“不是高富帅”)×H(Y|X=“不是高富帅”)$
=5/100×0.46900+95/100×0.04741=0.06849$=5/100×0.46900+95/100×0.04741=0.06849$

IY,X=HYH(Y|X)=0.01230$I（Y,X）=H（Y）- H(Y|X)=0.01230$

## 10. 特征有效性分析

IY,X2=HYH(Y|X2)=0.03114$I（Y,X_2）=H（Y）- H(Y|X_2)= 0.03114$

## 12. 特征有效性分析

IY,X3=HYH(Y|X3)=0.03593$I（Y,X_3）=H（Y）- H(Y|X_3)= 0.03593$

## 14. 评价特征选项的两个方法

• H(Y|X3=)$H(Y|X_3=“高富帅德”)$
• H(Y|X3=)$H(Y|X_3= “潜帅德”)$
• H(Y|X3=)$H(Y|X_3= “不是高富帅德且不是潜帅德”)$

## 18. 小结

