最近看了一下(svm,logit,neural network,decision tree,random forest)算法的基础概念,把这些算法涉及到的特征点,记录下来,以便以后用于理解和比较。
概念 | SVM | Logit |
| Data,classifier,optimization ,kernelling,hyperplane | Y=ax+b Y = f(x),Ө,X,X |
| 多类别:(两两,1和其他) | F(x) = (0,1) |
| 香蕉、苹果有交集:惩罚 | Y’ = |
| 不能用直线分割 | |
| 直线分割 | 信頼域算法,梯度下降,Powell共轭方向集方法 |
| 最优化求解 |
|
|
|
|
概念 | Neural network | |
| 神经元—感知器,多输入,单个输出 | |
| 权重、阀值 | |
|
| |
| ||
| 试错法,Δw,Δb 微小变化,"输出"改造成一个连续性函数 将感知器的计算结果 | |
|
|
|
概念 | Decision tree | Random forest |
| Gini 不存度 | 随机森林采用多个决策树的投票机制来改善决策树 |
| 选择最优特征以及选择最优分割点 | Bootstraping , Bagging 获得投票机制 |
| Gini值是否足够小 | 1. 从样本集中通过重采样的方式产生n个样本 2. 假设样本特征数目为a,对n个样本选择a中的k个特征,用建立决策树的方式获得最佳分割点 3. 重复m次,产生m棵决策树 4. 多数投票机制来进行预测 |
| 循环 |
|
| 决策树会产生过拟合的现象,导致泛化能力变弱 |
|