-
回顾:请参考课本3.3节,对决策树的几个算法(ID3,C4.5,CART)进行总结。其中总结需要包括:算法的整体流程是什么?什么是熵?什么是信息增益?什么是基尼指数?
-
算法的整体流程:
- 特征选择:从训练集中依次选择特征作为决策树的节点,作为根节点的特征能够保证比其它特征的分类效果更好,再根据这种分类效果依次选择非叶子节点。分类效果的评估标准在不同的决策树算法中不同。
- 树的构建:从根节点开始,根据根节点的特征对训练集进行切分,对于切分的每部分训练样本,再根据子节点的特征进行划分,递归的进行这个操作,直到叶子节点中的样本被分类正确。
- 树的剪枝:包括预剪枝和后剪枝。预剪枝是在构建决策树的过程中提前判断一个节点需不需要进行分裂,后剪枝是已经构建好一棵决策树进行修剪。
-
熵:随机变量不确定性的度量,表示系统内部的混乱程度。
H ( X ) = − Σ i = 1 n p i l o g 2 p i , 其 中 P ( X = x i ) = p i , ( i = 1 , 2 , . . . , n ) H(X)=-\Sigma_{i=1}^n p_i log_2 p_i, 其中P(X=x_i)=p_i, (i=1,2,...,n) H(X)=−Σi=1npilog2pi,其中P(X=xi)=pi,(i=1,2,...,n) -
信息增益:特征x使得类别Y不确定性减少的程度。
g ( D , A ) = H ( D ) − D ( D ∣ A ) g(D,A)=H(D)-D(D|A) g(D,A)=H(D)−D(D∣A) -
基尼指数:随机选中的样本被分错的概率。
G i n i ( p ) = Σ k = 1 K p k ( 1 − p k ) = 1 − Σ k = 1 K p k 2 Gini(p)=\Sigma_{k=1}^K p_k(1-p_k)=1-\Sigma_{k=1}^Kp_k^2 Gini(p)=Σk=1Kpk(1−pk)=1−Σk=1Kpk2
-
-
回顾:请参考课本3.3节,为什么决策树需要剪枝?如何进行剪枝?
决策树剪枝,是为了防止过拟合的风险。
决策树剪枝分为预剪枝和后剪枝。预剪枝是在构建决策树的过程中,根据一些阈值来判断一个节点是否需要进行分裂,一般阈值会设置为树的深度,叶子节点的个数,节点内部的样本数。后剪枝是构建完决策树之后,根据一定的衡量指标来判断是否剪枝。
-
补充:决策树的优缺点是什么?
优点:决策树可解释性较强,构建好的决策树易于进行可视化。
决策树可用于小数据集。
对缺失值不敏感。
既能用于分类问题,也能用于回归问题。
缺点:决策树容易出现过拟合。
处理特征关联性较强的数据时,表现不太好。
各类样本数不平衡时,信息增益会偏向于,属性值多而每种属性值的样本数很少的特征。
-
回顾:逻辑回归能够手推一把吗?请拍照上传(其中包括:伯努利过程,极大似然,损失函数,梯度下降)
-
逻辑回归基本假设:假设数据服从伯努利分布,则样本为正的概率表示为$ h_\theta(x) $,样本为负的概率表示为 1 − h θ ( x ) 1-h_\theta(x) 1−hθ(x)。假设预测样本为正的概率为:
h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+e−θTx1
整合得:
P ( y ∣ x ; θ ) = h θ ( x ) y ( 1 − h θ ( x ) ) 1 − y P(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y} P(y∣x;θ)=hθ(x)y(1−hθ(x))1−y -
逻辑回归的损失函数:
逻辑回归的损失函数为它的似然函数:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ l_\theta(x)&=\…
由对数变换 log a b = log a + log b \log ab=\log a+\log b logab=loga+logb得对数似然函数:
L θ ( x ) = log l θ ( x ) = ∑ i = 1 m ( y i h θ ( x i ) ) + ( 1 − y i ) ( 1 − h θ ( x i ) ) ) L_\theta(x)=\log l_\theta(x)=\sum_{i=1}^m(y_ih_\theta(x_i))+(1-y_i)(1-h_\theta(x_i))) Lθ(x)=loglθ(x)=i=1∑m(yihθ(xi))+(1−yi)(1−hθ(xi)))
引入 J ( θ ) = − 1 m L θ ( x ) J(\theta)=-\frac{1}{m}L_\theta(x) J(θ)=−m1Lθ(x)转化为梯度下降任务 -
梯度下降推导:
对所有 θ \theta θ求偏导:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \frac{\partial…
-
-
补充:逻辑回归优缺点是什么?
优点:模型简单,可解释性强。
适用于工业界。
训练速度快,节省内存,计算量和存储量和特征数有关。
缺点:形式简单,容易出现欠拟合。
很难处理样本不平衡的情况。
-
补充:为什么逻辑回归需要归一化?
逻辑回归使用梯度下降方法进行优化,归一化可以提高收敛速度,增加收敛精度。
-
补充:关于逻辑回归,连续特征离散化的好处?
稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。
离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30 是1,否则0。如果特征没有离散化,一个异常数据“年龄300 岁”会给模型造成很大的干扰。
特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30 作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问。
-
补充:逻辑回归能否解决非线性的分类问题?
可以,只要使用核技巧。
深度之眼 决策树和逻辑回归打卡
最新推荐文章于 2021-02-11 12:31:13 发布