4 分类问题

基本概念

评价指标

  • 混淆矩阵:
    • 真阳性TP:预测值和真实值都为正例;
    • 真阴性TN:预测值与真实值都为正例;
    • 假阳性FP:预测值为正,实际值为负;
    • 假阴性FN:预测值为负,实际值为正;
  • 准确率:分类正确的样本数占总样本的比例,即: A C C = T P + T N F P + F N + T P + T N ACC = \frac{TP+TN}{FP+FN+TP+TN} ACC=FP+FN+TP+TNTP+TN.
  • 精度:预测为正且分类正确的样本占预测值为正的比例,即: P R E = T P T P + F P PRE = \frac{TP}{TP+FP} PRE=TP+FPTP.
  • 召回率:预测为正且分类正确的样本占类别为正的比例,即: R E C = T P T P + F N REC = \frac{TP}{TP+FN} REC=TP+FNTP.
  • F1值:综合衡量精度和召回率,即: F 1 = 2 P R E × R E C P R E + R E C F1 = 2\frac{PRE\times REC}{PRE + REC} F1=2PRE+RECPRE×REC.
  • ROC曲线:以假阳率为横轴,真阳率为纵轴画出来的曲线,曲线下方面积越大越好。

python库: sklearn.metrics

分类和回归的区别(题1)

最大区别:分类问题预测的是离散变量,回归问题预测连续变量
因此,他们的评价方法也完全不同。

可以通过logistic 函数, p ( X ) = e β 0 + β 1 X 1 + e β 0 + β 1 X {p(X) = \dfrac{e^{\beta_0 + \beta_1X}}{1+e^{\beta_0 + \beta_1X}}} p(X)=1+eβ0+β1Xeβ0+β1X, 将线性回归预测结果转化为概率,然后和回归问题流程一样,用最大似然估计求出模型参数,进行分类预测。

常用模型

逻辑回归(题6)

通过logistic 函数, p ( X ) = e β 0 + β 1 X 1 + e β 0 + β 1 X {p(X) = \dfrac{e^{\beta_0 + \beta_1X}}{1+e^{\beta_0 + \beta_1X}}} p(X)=1+eβ0+β1Xeβ0+β1X, 将线性回归预测结果转化为概率,然后和回归问题流程一样,用最大似然估计求出模型参数,进行分类预测。

线性判别分析(LDA)

理解

  • 贝叶斯角度理解
    比较贝叶斯公式分子部分每种情况的大小,选择最大的情况作为最终类别。

    假设 f k ( x ) {f_k(x) } fk(x)服从正态分布,而且每个 σ k 2 = σ 2 {\sigma_k^2 = \sigma^2} σk2=σ2,同方差假设
    f k ( x ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 e [ − 1 2 ( x − μ k ) T Σ − 1 ( x − μ k ) ] {f_k(x)=\dfrac{1}{(2\pi)^{\tfrac{p}{2}}|\Sigma|^\tfrac{1}{2}}e^{[-\tfrac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)]}} fk(x)=(2π)2pΣ211e[21(xμk)TΣ1(xμk)]
    μ k ^ = ( μ k 1 , μ k 2 , . . . . . . , μ k p ) \hat{\mu_k}=(\mu_{k1},\mu_{k2},......,\mu_{kp}) μk^=(μk1,μk2,......,μkp)
    Σ ^ = 1 p − 1 ∑ j = 1 p ( x j − x ‾ ) ( x j − x ‾ ) T \hat{\Sigma}=\dfrac{1}{p-1}\sum\limits_{j=1}^p(x_j-\overline{x})(x_j-\overline{x})^T Σ^=p11j=1p(xjx)(xjx)T
    δ k ( x ) = l n ( π k f k ( x ) ) = l n ( π k ) − ( p 2 l n ( 2 π ) + 1 2 l n ( ∣ Σ ∣ ) ) − 1 2 ( x − μ k ) T Σ − 1 ( x − μ k ) = x T Σ ^ μ ^ k − 1 2 μ ^ k T Σ ^ − 1 μ ^ k + l n π ^ k {\delta_k(x) = ln(\pi_kf_k(x))\\ =ln(\pi_k)-(\dfrac{p}{2}ln(2\pi)+\dfrac{1}{2}ln(|\Sigma|))-\dfrac{1}{2}(x-\mu_k)^T\Sigma^-1(x-\mu_k)\\ =x^T\hat{\Sigma}\hat{\mu}_k-\dfrac{1} {2}\hat{\mu}_k^T\hat{\Sigma}^{-1}\hat{\mu}_k+ln\hat{\pi}_k} δk(x)=ln(πkfk(x))=ln(πk)(2pln(2π)+21ln(Σ))21(xμk)TΣ1(xμk)=xTΣ^μ^k21μ^kTΣ^1μ^k+lnπ^k
    只需要代入数据求出 δ k ( x ) {\delta_k(x)} δk(x),哪个 k {k} k对应的 δ k ( x ) {\delta_k(x)} δk(x)大,就是哪一类。

  • 降维分类思想
    将数据降维至一维(类内方差小,类间方差大,即“松耦合,高内聚”),进行分类。
    特征X X = ( x 1 , x 2 , . . . , x N ) T X = (x_1,x_2,...,x_N)^T X=(x1,x2,...,xN)T
    因变量Y Y = ( y 1 , y 2 , . . . , y N ) T ,      其 中 , y i ∈ { + 1 , − 1 } Y = (y_1,y_2,...,y_N)^T,\;\;其中,y_i \in \{+1,-1 \} Y=(y1,y2,...,yN)T,yi{+1,1},类别c1的特征 X c 1 = { x i ∣ y i = + 1 } X_{c_1} = \{x_i|y_i=+1 \} Xc1={xiyi=+1},同理,类别c2的特征 X c 2 = { x i ∣ y i = − 1 } X_{c_2} = \{x_i|y_i=-1 \} Xc2={xiyi=1},属于c1类别的数据个数为 N 1 N_1 N1,属于类别c2的数据个数为 N 2 N_2 N2,其中, N 1 + N 2 = N N_1+N_2 = N N1+N2=N
    特征X投影在w方向至一维 z i = w T x i ,      ∣ ∣ w ∣ ∣ = 1 z_i = w^Tx_i,\;\;||w|| = 1 zi=wTxi,w=1
    全样本投影的均值 z ˉ = 1 N ∑ i = 1 N z i = 1 N ∑ i = 1 N w T x i \bar{z} = \frac{1}{N}\sum\limits_{i=1}^{N}z_i = \frac{1}{N}\sum\limits_{i=1}^{N}w^Tx_i zˉ=N1i=1Nzi=N1i=1NwTxi
    全样本投影的协方差 S z = 1 N ∑ i = 1 N ( z i − z ˉ ) ( z i − z ˉ ) T = 1 N ∑ i = 1 N ( w T x i − z ˉ ) ( w T x i − z ˉ ) T S_z = \frac{1}{N}\sum\limits_{i=1}^{N}(z_i-\bar{z})(z_i-\bar{z})^T = \frac{1}{N}\sum\limits_{i=1}^{N}(w^Tx_i-\bar{z})(w^Tx_i-\bar{z})^T Sz=N1i=1N(zizˉ)(zizˉ)T=N1i=1N(wTxizˉ)(wTxizˉ)T
    c1样本投影的均值 z 1 ˉ = 1 N 1 ∑ i = 1 N 1 z i = 1 N 1 ∑ i = 1 N 1 w T x i \bar{z_1} = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}z_i = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}w^Tx_i z1ˉ=N11i=1N1zi=N11i=1N1wTxi
    c1样本投影的协方差 S z 1 = 1 N 1 ∑ i = 1 N 1 ( z i − z 1 ˉ ) ( z i − z 1 ˉ ) T = 1 N 1 ∑ i = 1 N 1 ( w T x i − z 1 ˉ ) ( w T x i − z 1 ˉ ) T S_{z_1} = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}(z_i-\bar{z_1})(z_i-\bar{z_1})^T = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}(w^Tx_i-\bar{z_1})(w^Tx_i-\bar{z_1})^T Sz1=N11i=1N1(ziz1ˉ)(ziz1ˉ)T=N11i=1N1(wTxiz1ˉ)(wTxiz1ˉ)T
    c2样本投影的均值 z 2 ˉ = 1 N 2 ∑ i = 1 N 2 z i = 1 N 2 ∑ i = 1 N 2 w T x i \bar{z_2} = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}z_i = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}w^Tx_i z2ˉ=N21i=1N2zi=N21i=1N2wTxi
    c2样本投影的协方差 S z 2 = 1 N 2 ∑ i = 1 N 2 ( z i − z 2 ˉ ) ( z i − z 2 ˉ ) T = 1 N 2 ∑ i = 1 N 2 ( w T x i − z 2 ˉ ) ( w T x i − z 2 ˉ ) T S_{z_2} = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}(z_i-\bar{z_2})(z_i-\bar{z_2})^T = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}(w^Tx_i-\bar{z_2})(w^Tx_i-\bar{z_2})^T Sz2=N21i=1N2(ziz2ˉ)(ziz2ˉ)T=N21i=1N2(wTxiz2ˉ)(wTxiz2ˉ)T
    类间差距 ( z ˉ 1 − z ˉ 2 ) 2 (\bar{z}_1-\bar{z}_2)^2 (zˉ1zˉ2)2
    类内方差 S 1 + S 2 S_1 + S_2 S1+S2
    由于线性判别分析的目标是同一类别内方差小,不同类别之间距离大,因此损失函数定义为:

    J ( w ) = ( z ˉ 1 − z ˉ 2 ) 2 s 1 + s 2 = w T ( x ˉ c 1 − x ˉ c 2 ) ( x ˉ c 1 − x ˉ c 2 ) T w w T ( s c 1 + s c 2 ) w        w ^ = a r g m a x w    J ( w ) J(w) = \frac{(\bar{z}_1-\bar{z}_2)^2}{s_1+s_2} = \frac{w^T(\bar{x}_{c_1}-\bar{x}_{c_2})(\bar{x}_{c_1}-\bar{x}_{c_2})^Tw}{w^T(s_{c_1}+s_{c_2})w}\\ \;\;\; \hat{w} = argmax_w\;J(w) J(w)=s1+s2(zˉ1zˉ2)2=wT(sc1+sc2)wwT(xˉc1xˉc2)(xˉc1xˉc2)Tww^=argmaxwJ(w)
    记: S b = ( x ˉ c 1 − x ˉ c 2 ) ( x ˉ c 1 − x ˉ c 2 ) T ,    S w = ( s c 1 + s c 2 ) S_b = (\bar{x}_{c_1}-\bar{x}_{c_2})(\bar{x}_{c_1}-\bar{x}_{c_2})^T,\;S_w = (s_{c_1}+s_{c_2}) Sb=(xˉc1xˉc2)(xˉc1xˉc2)T,Sw=(sc1+sc2),因此 J ( w ) = w T S b w w T S w w J(w) = \frac{w^TS_bw}{w^TS_ww} J(w)=wTSwwwTSbw
    让J(w)对w求导等于0,求出: w = S w − 1 ( x ˉ c 1 − x ˉ c 2 ) w = S_w^{-1}(\bar{x}_{c_1}-\bar{x}_{c_2}) w=Sw1(xˉc1xˉc2)

与逻辑回归参数估计的异同(题3)

  • 判别模型与生成模型
    判别模型仅用判别那一类概率最大,生成模型要计算模型的概率分布
  • 两者形式相似,均是将分类问题转化成了自变量的线性表达。
  • LDA是假设正态同方差,然后通过计算均值协方差,带入判别式;逻辑回归则是通过极大似然估计估计参数
  • LDA是生成模型,逻辑回归是判别模型

朴素贝叶斯

在线性判别分析中,我们假设每种分类类别下的特征遵循同一个协方差矩阵,每两个特征之间是存在协方差的,因此在线性判别分析中各种特征是不是独立的。但是,朴素贝叶斯算法对线性判别分析作进一步的模型简化,它将线性判别分析中的协方差矩阵中的协方差全部变成0,只保留各自特征的方差,也就是朴素贝叶斯假设各个特征不相关

决策树(题2)

决策树回归树的区别在于选择分割点的指标不再是均方误差。
而对于离散变量不适合用均方误差作为分割节点(均方误差收敛速度非常慢)

  • 步骤:
    • 选择最优切分特征j以及该特征上的最优点s:遍历特征j以及固定j后遍历切分点s,选择使得基尼系数或者交叉熵最小的(j,s)
    • 按照(j,s)分裂特征空间,每个区域内的类别为该区域内样本比例最多的类别
    • 继续调用步骤1,2直到满足停止条件,就是每个区域的样本数小于等于5
    • 将特征空间划分为J个不同的区域,生成分类树。

决策树指标包括分类错误率信息增益GINI系数

分类错误率

此区域内的训练集中非常见类所占的类别,即
E = 1 − m a x k ( p ^ m k ) E = 1-max_k(\hat{p}_{mk}) E=1maxk(p^mk)

GINI系数

G = ∑ k = 1 K p ^ m k ( 1 − p ^ m k ) G = \sum\limits_{k=1}^{K} \hat{p}_{mk}(1-\hat{p}_{mk}) G=k=1Kp^mk(1p^mk)
gini系数取值小,那就意味着某个节点包含的观测值几乎来自同一个类别。

  • CART:用GINI系数作为指标的分类树

交叉熵

D = − ∑ k = 1 K p ^ m k l o g    p ^ m k D = -\sum\limits_{k=1}^{K} \hat{p}_{mk}log\;\hat{p}_{mk} D=k=1Kp^mklogp^mk

支持向量机(SVM)

线性SVM(题4)

找到最大间隔超平面,即找到一个分割平面距离最近的观测点最远。

  • 推导:
    根据距离超平米那最近的点,只要同时缩放w和b可以得到: w T x 1 + b = 1 w^Tx_1 + b = 1 wTx1+b=1 w T x 2 + b = − 1 w^Tx_2+b = -1 wTx2+b=1
    因此:
    w T x 1 + b = 1 w T x 2 + b = − 1 ( w T x 1 + b ) − ( w T x 2 + b ) = 2 w T ( x 1 − x 2 ) = 2 w T ( x 1 − x 2 ) = ∥ w ∥ 2 ∥ x 1 − x 2 ∥ 2 cos ⁡ θ = 2 ∥ x 1 − x 2 ∥ 2 cos ⁡ θ = 2 ∥ w ∥ 2 d 1 = d 2 = ∥ x 1 − x 2 ∥ 2 cos ⁡ θ 2 = 2 ∥ w ∥ 2 2 = 1 ∥ w ∥ 2 d 1 + d 2 = 2 ∥ w ∥ 2 \begin{array}{l} w^{T} x_{1}+b=1 \\ w^{T} x_{2}+b=-1 \\ \left(w^{T} x_{1}+b\right)-\left(w^{T} x_{2}+b\right)=2 \\ w^{T}\left(x_{1}-x_{2}\right)=2 \\ \qquad \begin{array}{l} w^{T}\left(x_{1}-x_{2}\right)=\|w\|_{2}\left\|x_{1}-x_{2}\right\|_{2} \cos \theta=2 \\ \left\|x_{1}-x_{2}\right\|_{2} \cos \theta=\frac{2}{\|w\|_{2}} \end{array} \\ \qquad \begin{array}{l} d_{1}=d_{2}=\frac{\left\|x_{1}-x_{2}\right\|_{2} \cos \theta}{2}=\frac{\frac{2}{\|w\|_{2}}}{2}=\frac{1}{\|w\|_{2}} \\ d_{1}+d_{2}=\frac{2}{\|w\|_{2}} \end{array} \end{array} wTx1+b=1wTx2+b=1(wTx1+b)(wTx2+b)=2wT(x1x2)=2wT(x1x2)=w2x1x22cosθ=2x1x22cosθ=w22d1=d2=2x1x22cosθ=2w22=w21d1+d2=w22
    由此可知道SVM模型的具体形式:
    min ⁡ w , b 1 2 ∥ w ∥ 2  s.t.  y ( i ) ( w T x ( i ) + b ) ≥ 1 , i = 1 , … , n \begin{aligned} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y^{(i)}\left(w^{T} x^{(i)}+b\right) \geq 1, \quad i=1, \ldots, n \end{aligned} w,bmin s.t. 21w2y(i)(wTx(i)+b)1,i=1,,n
    可以将约束条件写为: g i ( w ) = − y ( i ) ( w T x ( i ) + b ) + 1 ≤ 0 g_{i}(w)=-y^{(i)}\left(w^{T}x^{(i)}+b\right)+1 \leq 0 gi(w)=y(i)(wTx(i)+b)+10
    可以将优化问题拉格朗日化
    L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 n α i [ y ( i ) ( w T x ( i ) + b ) − 1 ] \mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right] L(w,b,α)=21w2i=1nαi[y(i)(wTx(i)+b)1]
    因此:
    L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 n α i [ y ( i ) ( w T x ( i ) + b ) − 1 ] \mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right] L(w,b,α)=21w2i=1nαi[y(i)(wTx(i)+b)1]
    欲构造 dual 问题, 首先求拉格朗日化的问题中 $\mathrm{w} $ 和 $\mathrm{b} $ 的值, 对 $ \mathrm{w}$ 求梯度, 令梯度为 0, 可求得 w:
    对 b 求梯度, 令梯度为 0, 可得:
    ∂ ∂ b L ( w , b , α ) = ∑ i = 1 n α i y ( i ) = 0 \frac{\partial}{\partial b} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i} y^{(i)}=0 bL(w,b,α)=i=1nαiy(i)=0

    w \mathrm{w} w 带入拉格朗日化的原问题可得
    L ( w , b , α ) = ∑ i = 1 n α i − 1 2 ∑ i , j = 1 n y ( i ) y ( j ) α i α j ( x ( i ) ) T x ( j ) − b ∑ i = 1 n α i y ( i ) L ( w , b , α ) = ∑ i = 1 n α i − 1 2 ∑ i , j = 1 n y ( i ) y ( j ) α i α j ( x ( i ) ) T x ( j ) \begin{array}{l} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)}-b \sum_{i=1}^{n} \alpha_{i} y^{(i)} \\ \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)} \end{array} L(w,b,α)=i=1nαi21i,j=1ny(i)y(j)αiαj(x(i))Tx(j)bi=1nαiy(i)L(w,b,α)=i=1nαi21i,j=1ny(i)y(j)αiαj(x(i))Tx(j)
    因此:
     对拉格朗日化的原问题求最小值, 得到了  w  , 现在可以构造 dual 问題  max ⁡ α W ( α ) = ∑ i = 1 n α i − 1 2 ∑ i , j = 1 n y ( i ) y ( j ) α i α j ⟨ x ( i ) , x ( j ) ⟩  s.t.  α i ≥ 0 , i = 1 , … , n ∑ i = 1 n α i y ( i ) = 0  可以推导出 b的值为:  b ∗ = − max ⁡ i : y ( i ) = − 1 w ∗ T x ( i ) + min ⁡ i : y ( i ) = 1 w ∗ T x ( i ) 2  SVM的决策子如下,值的符号为类别.  w T x + b = ( ∑ i = 1 n α i y ( i ) x ( i ) ) T x + b = ∑ i = 1 n α i y ( i ) ⟨ x ( i ) , x ⟩ + b \begin{aligned} &\text { 对拉格朗日化的原问题求最小值, 得到了 } \mathrm{w} \text { , 现在可以构造 dual 问題 }\\ &\begin{aligned} \max _{\alpha} & W(\alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left\langle x^{(i)}, x^{(j)}\right\rangle \\ \text { s.t. } & \alpha_{i} \geq 0, \quad i=1, \ldots, n \\ & \sum_{i=1}^{n} \alpha_{i} y^{(i)}=0 \end{aligned}\\ &\text { 可以推导出 b的值为: } b^{*}=-\frac{\max _{i: y^{(i)}=-1} w^{* T} x^{(i)}+\min _{i: y^{(i)}=1} w^{* T} x^{(i)}}{2}\\ &\begin{array}{r} \text { SVM的决策子如下,值的符号为类别. } \\ \qquad w^{T} x+b=\left(\sum_{i=1}^{n} \alpha_{i} y^{(i)} x^{(i)}\right)^{T} x+b=\sum_{i=1}^{n} \alpha_{i} y^{(i)}\left\langle x^{(i)}, x\right\rangle+b \end{array} \end{aligned}  对拉格朗日化的原问题求最小值得到了 w , 现在可以构造 dual 问題 αmax s.t. W(α)=i=1nαi21i,j=1ny(i)y(j)αiαjx(i),x(j)αi0,i=1,,ni=1nαiy(i)=0 可以推导出 b的值为b=2maxi:y(i)=1wTx(i)+mini:y(i)=1wTx(i) SVM的决策子如下,值的符号为类别wTx+b=(i=1nαiy(i)x(i))Tx+b=i=1nαiy(i)x(i),x+b

非线性SVM

数据分割不再是一个平面=>将原始数据投影到高维空间=>线性可分

核函数:假设 ϕ \phi ϕ是一个从低维的输入空间 χ \chi χ(欧式空间的子集或者离散集合)到高维的希尔伯特空间的 H \mathcal{H} H映射。那么如果存在函数 K ( x , z ) K(x,z) K(x,z),对于任意 x , z ∈ χ x, z \in \chi x,zχ,都有: K ( x , z ) = ϕ ( x ) ∙ ϕ ( z ) K(x, z) = \phi(x) \bullet \phi(z) K(x,z)=ϕ(x)ϕ(z)那么我们就称 K ( x , z ) K(x, z) K(x,z)为核函数。

  • 多项式核函数(Polynomial Kernel)
    K ( x i , x j ) = ( ⟨ x i , x j ⟩ + c ) d K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\left(\left\langle\mathbf{x}_{i}, \mathbf{x}_{j}\right\rangle+c\right)^{d} K(xi,xj)=(xi,xj+c)d
    C用来控制低阶项的强度,C=0,d=1代表无核函数。
  • 高斯核函数(Gaussian Kernel)
    在SVM中也称为径向基核函数(Radial Basis Function,RBF),它是libsvm的默认核函数。
    K ( x i , x j ) = exp ⁡ ( − ∥ x i − x j ∥ 2 2 2 σ 2 ) K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\exp \left(-\frac{\left\|\mathbf{x}_{i}-\mathbf{x}_{j}\right\|_{2}^{2}}{2 \sigma^{2}}\right) K(xi,xj)=exp(2σ2xixj22)
    使用高斯核函数之前需要将特征标准化,因此这里衡量的是样本之间的相似度。
  • Sigmoid核函数(Sigmoid Kernel)
    K ( x i , x j ) = tanh ⁡ ( α x i ⊤ x j + c ) K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\tanh \left(\alpha \mathbf{x}_{i}^{\top} \mathbf{x}_{j}+c\right) K(xi,xj)=tanh(αxixj+c)
    此时的SVM相当于没有隐藏层的简单神经网络。
  • 余弦相似度核
    K ( x i , x j ) = x i ⊤ x j ∥ x i ∥ ∥ x j ∥ K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\frac{\mathbf{x}_{i}^{\top} \mathbf{x}_{j}}{\left\|\mathbf{x}_{i}\right\|\left\|\mathbf{x}_{j}\right\|} K(xi,xj)=xixjxixj
    常用于衡量两段文字的相似度
NLP问题分类数据集是用于训练和评估自然语言处理(NLP)模型的数据集,用于将输入的文本分类为预定义的类别或标签。在构建NLP问题分类数据集时,需要收集大量的文本数据,并为每个文本样本提供一个或多个标签,以指示该样本属于哪个类别。这些标签可以是预先定义好的,也可以通过人工标注进行创建。 构建NLP问题分类数据集的过程通常包括以下步骤: 1. 数据收集:从各种来源收集大量的文本数据,例如网络上的新闻文章、社交媒体上的帖子和评论、电子书等。 2. 数据预处理:对文本数据进行清洗和预处理,例如去除特殊符号、停用词和标点符号,将文本转换为小写,将文本分割成单词等。 3. 标签分配:为每个文本样本分配一个或多个标签,以指示其所属的类别。标签可以是分类问题中的预定义类别,也可以是从数据中人工标注得到的。 4. 训练和评估:将数据集划分为训练集和测试集,使用训练集来训练NLP模型,并使用测试集评估模型的性能。 5. 数据增强:在数据集上应用各种数据增强技术,例如同义词替换、近义词插入和重排等,以增加数据的多样性和模型的鲁棒性。 一个好的NLP问题分类数据集应具有以下特点: 1. 多样性:包含来自不同领域、不同风格和不同主题的文本样本,以确保模型在各种情况下都能良好地分类。 2. 均衡性:各个类别的样本数量大致相等,以避免模型对某些类别过度偏向。 3. 真实性:数据集中的样本应有真实性,反映真实世界中的文本分类问题。 4. 标签一致性:标签的定义清晰明确,不会存在歧义,以便模型正确理解和分类文本。 通过构建和使用NLP问题分类数据集,可以帮助我们开发出更准确和鲁棒的NLP模型,使其能够自动识别和分类文本中的不同问题和主题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值