from:https://blog.csdn.net/qiu_zhi_liao/article/details/86586113
1. 为什么信息熵要定义成-Σp*log(p)?
https://blog.csdn.net/taoqick/article/details/72852255
三个原因:(1) 越小概率的事情发生了,信息量越大,即信息量与概率成反比;(2)两个信息量的信息量是加和的关系,两个概率的概率是相乘的关系,只有log函数能满足这种关系;(3)一个事件总的信息量就是每一种可能的情况的信息量乘以它们发生的概率,其实就是信息量的数学期望。
2. 决策树有哪些优点和缺点:
优点:容易解释,简单
缺点:过拟合问题(需要找到好的tree depth来避免),不好把握特征之间的关系,贪心算法可能得不到全局最优,随机森林可以一定程度上缓解这些情况.
3. 极大似然估计(from https://blog.csdn.net/qq_39355550/article/details/81809467)
目的:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值,"模型已定,参数未知". 决策树里用来确定经验熵或条件熵(在概率未知的情况下).
4. 随机森林(from https://www.cnblogs.com/DicksonJYL/p/9429691.html)
2001年由Breiman提出,在变量(列)和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果.
优点:a.两个随机性的引入,使得随机森林不容易陷入过拟合
b.两个随机性的引入,使得随机森林具有很好的抗噪声能力
c.能处理高维度的数据(feature很多),并且不用做特征选择,对数据集的适应能力强;能处理离散型和连续型数据,而且无需规范化
d. 可生成一个Proximities=(pij)矩阵,用于度量样本之间的相似性: pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数,N随机森林中树的颗数
e. 在创建随机森林的时候,对generlization error使用的是无偏估计
f. 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量
g. 在训练过程中,能够检测到feature间的互相影响
h. 容易做成并行化方法
i. 实现比较简单
5. pearson correlation 皮尔逊相关(from
https://blog.csdn.net/laozhaokun/article/details/25156923)
用途: 度量相似性(距离),两个变量的相关性的值介于-1与1之间,值越大则说明相关性越强.
两个变量的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商.
6. 提升树
以决策树为基函数的提升方法为提升树.
提升方法实际采用加法模型(即基函数的线性组合)与前向分步算法.