特征提取
1.TF-IDF
学习
之前已经总结过TF-IDF
相关的内容了。这里就不再重复编写了,需要的话请参看:https://blog.csdn.net/sir_TI/article/details/88135434。本质内容就是一个公式的问题。
然后现在主要总结的就是关于TF-IDF
相关的代码分析。先总结出特征提取的流程,然后将相关的内容以代码的形式体现出来。
2.互信息
说起互信息,其实我们都不陌生。相信当您学到了这儿的时候,已经对决策树有了基本的了解,那么现在就简单的回顾一下相关的概念:
2.1 熵
如果X是一个离散型随机变量,取值空间为R,其概率分布为 p ( x ) = P ( X = x ) , x ⊆ R p(x)=P(X=x),x\subseteq R p(x)=P(X=x),x⊆R.那么X的熵的定义式为:
H ( X ) = − ∑ x ⊆ R p ( x ) log 2 p ( x ) H(X)=-\sum _{x \subseteq R}p(x)\log_2p(x) H(X)=−x⊆R∑p(x)log2p(x)
其中熵的物理意义就是反应了某个物体的混乱程度。当熵最大时,随机变量最不确定。
2.2 联合熵
如果X,Y是一对离散型随机变量X,Y ~ P(x,y),X,Y的联合熵(joint entropy)定义为:
H ( X , Y ) = − ∑ x ⊂ X ∑ y