SMALE训练营作业

第一天

上午

题1.6

问题描述:描述你在学习、使用数学表达式时的困难, 可举例说明.
答:1.数学表达式有很多细节不知道,导致表达式错误或者不专业。比如集合之间的映射要用“ ↦ \mapsto ”,而函数的映射关系用“ → \rightarrow ”.
2.如何把自己心里的算法思路表达成数学式?数学表达式又该如何用语言简单明了解释它,不知道从何处下手.
3.定义数学表达式不够严谨,经不起推敲.

下午

题2.6

1.令 A = { 3 , 5 } \mathbf{A}=\{3, 5\} A={3,5},写出 2 A 2^{\mathbf{A}} 2A.
答: 2 A = { ∅ , { 3 } , { 5 } , { 3 , 5 } } 2^{\mathbf{A}}=\{\emptyset, \{3\}, \{5\}, \{3, 5\}\} 2A={,{3},{5},{3,5}}.
2.展开 2 ∅ 2^{\empty} 2.
答: ∣ 2 ∅ ∣ = 2 ∣ ∅ ∣ = 2 0 = 1 \vert2^{\empty}\vert=2^{\lvert \empty \rvert}=2^0=1 2=2=20=1,故 2 ∅ = { ∅ } 2^{\empty}=\{\empty\} 2={}.
3.令 A = { 5 , 6 , 7 , 8 , 9 } \mathbf{A}=\{5, 6, 7, 8, 9\} A={5,6,7,8,9},写出 A \mathbf{A} A的其他两种表达式.
答:① A = [ 5..9 ] \mathbf{A}=[5..9] A=[5..9];② A = { x ∈ N ∣ x ∈ [ 5 , 9 ] } \mathbf{A}=\{x \in \mathbf{N} \vert x\in[5,9]\} A={xNx[5,9]};③ A = { 5 , 6 , … , 9 } \mathbf{A}=\{5, 6, \dots, 9\} A={5,6,,9}.

晚上

题3.3

问题描述:自己出一个数据,做一个 3 × 2 3\times2 3×2 2 × 4 2\times 4 2×4的矩阵乘法.
答:设 A = [ 1 2 3 4 5 6 ] \mathbf{A}=\begin {bmatrix} 1&2\\ 3&4\\ 5&6\end {bmatrix} A=135246, B = [ 1 2 3 4 5 6 7 8 ] \mathbf{B}=\begin {bmatrix} 1&2&3&4\\ 5&6&7&8\end {bmatrix} B=[15263748],则 A × B = [ 1 2 3 4 5 6 ] × [ 1 2 3 4 5 6 7 8 ] = [ 11 14 7 20 23 30 17 44 35 46 27 68 ] \mathbf{A}\times \mathbf{B}=\begin {bmatrix}1&2\\ 3&4\\ 5&6\end {bmatrix}\times\begin {bmatrix} 1&2&3&4\\ 5&6&7&8\end {bmatrix}=\begin {bmatrix} 11&14&7&20\\ 23&30&17&44\\ 35&46&27&68\end {bmatrix} A×B=135246×[15263748]=11233514304671727204468

补充题

问题描述:找出Deep Multi-View 符号系统的矛盾
答:在这里插入图片描述
如上标注:
①: o i \mathbf{o_i} oi为一个对象,应该是一个向量,此处应该为黑体.
②:此处“m”应该为斜体.
③: B \mathbf{B} B为一个集合,不应该使用 ∈ \in ,而是 ⊆ \subseteq .
④:1D代表一维,应该表达为: 1 − D 1-D 1D.
⑥:前文的正1未加“+”号,前后不一致.

第二天

上午

题4.6

1.令 A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A}=\{1, 2, 5, 8, 9\} A={1,2,5,8,9},写出 A \mathbf{A} A上的“模2同余”关系及相应的划分.
答: R = { ( a , b ) ∈ A × A ∣ a m o d    2 = b m o d    2 } \mathbf{R}=\{(a,b)\in\mathbf{A}\times\mathbf{A} \vert a\mod2=b\mod2\} R={(a,b)A×Aamod2=bmod2}.
模2余0: ( 2 , 2 ) , ( 2 , 8 ) , ( 8 , 2 ) , ( 8 , 8 ) (2, 2),(2, 8),(8, 2),(8, 8) (2,2),(2,8),(8,2),(8,8)
模2余1: ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 1 ) , ( 5 , 5 ) , ( 5 , 9 ) , ( 9 , 1 ) , ( 9 , 5 ) , ( 9 , 9 ) (1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9) (1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)
故: R = { ( 2 , 2 ) , ( 2 , 8 ) , ( 8 , 2 ) , ( 8 , 8 ) , ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 1 ) , ( 5 , 5 ) , ( 5 , 9 ) , ( 9 , 1 ) , ( 9 , 5 ) , ( 9 , 9 ) } \mathbf{R}=\{(2, 2),(2, 8),(8, 2),(8, 8),(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)\} R={(2,2),(2,8),(8,2),(8,8),(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)}.
P = { { 2 , 8 } , { 1 , 5 , 9 } } \mathcal{P}=\{\{2,8\}, \{1, 5, 9\}\} P={{2,8},{1,5,9}}
2. A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A}=\{1, 2, 5, 8, 9\} A={1,2,5,8,9},自己给定两个关系 R 1 \mathbf{R}_1 R1 R 2 \mathbf{R}_2 R2,并计算 R 1 R 2 , R 1 + , R 1 ∗ \mathbf{R}_1\mathbf{R}_2,\mathbf{R}_1^+,\mathbf{R}_1^* R1R2,R1+,R1.
答:设 R 1 = { ( 1 , 2 ) , ( 1 , 5 ) } , R 2 = { ( 2 , 1 ) , ( 5 , 8 ) } \mathbf{R}_1=\{(1, 2), (1, 5)\},\mathbf{R}_2=\{(2,1), (5,8)\} R1={(1,2),(1,5)},R2={(2,1),(5,8)}
R 2 ∘ R 1 = { ( 1 , 1 ) , ( 1 , 8 ) } \mathbf{R}_2 \circ\mathbf{R}_1=\{(1,1), (1,8)\} R2R1={(1,1),(1,8)}
R 1 + = ⋃ i = 1 ∣ A ∣ R 1 i = R 1 1 ∪ R 1 2 ∪ R 1 3 ∪ R 1 4 ∪ R 1 5 , R 1 1 = R 1 , R 1 R 1 = R 1 3 = R 1 4 = R 1 5 = ∅ . \mathbf{R}_1^+=\bigcup_{i=1}^{\vert\mathbf{A}\vert}\mathbf{R}_1^i=\mathbf{R}_1^1\cup\mathbf{R}_1^2\cup\mathbf{R}_1^3\cup\mathbf{R}_1^4\cup\mathbf{R}_1^5,\mathbf{R}_1^1=\mathbf{R}_1,\mathbf{R}_1\mathbf{R}_1=\mathbf{R}_1^3=\mathbf{R}_1^4=\mathbf{R}_1^5=\empty. R1+=i=1AR1i=R11R12R13R14R15,R11=R1,R1R1=R13=R14=R15=.
R 1 + = R 1 = { ( 1 , 2 ) , ( 1 , 5 ) } \mathbf{R}_1^+=\mathbf{R}_1=\{(1, 2), (1,5)\} R1+=R1={(1,2),(1,5)}.
R 1 ∗ = R 1 + ∪ R 0 , R 0 = { ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}_1^*=\mathbf{R}_1^+\cup\mathbf{R}^0,\mathbf{R}^0=\{(1,1), (2,2), (5,5), (8,8), (9,9)\} R1=R1+R0,R0={(1,1),(2,2),(5,5),(8,8),(9,9)}
R 1 ∗ = { ( 1 , 2 ) , ( 1 , 5 ) , ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}_1^*=\{(1,2), (1,5), (1,1), (2,2), (5,5), (8,8), (9,9)\} R1={(1,2),(1,5),(1,1),(2,2),(5,5),(8,8),(9,9)}
3.查阅粗糙集上下近似的定义并大致描述.
答:设 X ⊆ U \mathbf{X}\subseteq\mathbf{U} XU是任一子集, R \mathbf{R} R U \mathbf{U} U上的等价关系,下近似集: R ‾ ( X ) = U { Y ∈ U / R , Y ⊆ X } \underline{R}(\mathbf{X})=\mathbf{U}\{\mathbf{Y}\in\mathbf{U}/\mathbf{R},\mathbf{Y} \subseteq \mathbf{X}\} R(X)=U{YU/R,YX}.上近似集: R ‾ ( X ) = U { Y ∈ U / R , Y ∩ X ≠ ∅ } \overline{R}(\mathbf{X})=\mathbf{U}\{\mathbf{Y} \in \mathbf{U}/ \mathbf{R},\mathbf{Y}\cap \mathbf{X}\ne \empty\} R(X)=U{YU/R,YX=}.

下午

题5.5

问题描述:举例说明你对函数的认识.
答:函数是一个集合到另一个集合的一对一或者多对一的映射,也可以看作空间的一个点。比如: z = f ( x , y ) = x 2 + y 2 z=f(x,y)=x^2+y^2 z=f(x,y)=x2+y2,二维平面确定的点 ( x , y ) (x,y) (x,y)有唯一对应的 z z z,也可以看作确定的三维空间中的一个唯一确定的点 ( x , y , z ) (x,y,z) (x,y,z).

晚上

题6.5

问题描述:自己给定一个矩阵并计算其各种范数.
答:设 A = [ 1 2 − 3 4 0 6 ] \mathbf{A}=\begin {bmatrix} 1&2\\ -3&4\\ 0&6\end {bmatrix} A=130246,则:
∥ A ∥ 0 = ∣ { ( i , j ) ∣ a i j ≠ 0 } ∣ = 5 \|\mathbf{A}\|_0=\lvert \{(i,j)\vert a_{ij} \ne 0\}\rvert=5 A0={(i,j)aij=0}=5.
∥ A ∥ 1 = ∑ i , j ∣ a i j ∣ = 16 \|\mathbf{A}\|_1=\sum_{i,j}\lvert a_{ij}\rvert=16 A1=i,jaij=16.
∥ A ∥ 2 = ∑ i , j a i j 2 = 2 11 , ∥ A ∥ 2 2 = ∑ i , j a i j 2 = 44 \|\mathbf{A}\|_2=\sqrt{\sum_{i,j}a_{ij}^2}=2\sqrt{11},\|\mathbf{A\|}_2^2=\sum_{i,j}a_{ij}^2=44 A2=i,jaij2 =211 ,A22=i,jaij2=44.
∥ A ∥ ∞ = max ⁡ i , j ∣ a i j ∣ = 6 \|\mathbf{A}\|_{\infty}=\max_{i,j}\vert a_{ij}\vert=6 A=maxi,jaij=6.

题7.3

问题描述:解释推荐系统: 问题、算法与研究思路 2.1中的优化目标 min ⁡ ∑ ( i , j ) ∈ Ω ( f ( x i , t j ) − r i j ) 2 \min\sum_{(i,j)\in\Omega}(f(\mathbf{x}_i,\mathbf{t}_j)-r_{ij})^2 min(i,j)Ω(f(xi,tj)rij)2各符号及含义.
答:对 ∀ ( i , j ) ∈ Ω \forall(i,j)\in \Omega (i,j)Ω,即将评分表的每一个数据作为输入,将模型产生的输出与相应的评分表的值求差距的平方的最小值。

第三天

上午

题8.4

1.将向量下标为偶数的分量 ( x 2 , x 4 , …   ) (x2,x4,\dots) (x2,x4,)累加,写出相应表达式.
答: ∑ i m o d    2 = 0 x i \sum_{i \mod 2=0}x_i imod2=0xi

int sum=0;
for(int i=1;i<=n;i++)
{
  if(i%2==0)
  sum+=x[i];
}

2 各出一道累加、累乘、积分表达式的习题,并给出标准答案.
累加: ∑ i = 1 10 i = 1 + 2 + 3 + ⋯ + 10 = 55 \sum_{i=1}^{10}i=1+2+3+\dots+10=55 i=110i=1+2+3++10=55

int sum=0;
for(int i=1;i<=10;i++)
{
sum+=i;
}

累乘: ∏ i = 1 3 i 2 = 1 2 × 2 2 × 3 2 = 36 \prod_{i=1}^3i^2=1^2\times2^2\times3^2=36 i=13i2=12×22×32=36

int product=1;
for(int i=1;i<=3;i++)
     product*=i*i;

积分: ∫ 1 4 ( 2 x + 1 ) d x = ( x 2 + x ) ∣ 1 4 = 18 \int_{1}^4(2x+1)\mathrm{d}x=(x^2+x)\vert_1^4=18 14(2x+1)dx=(x2+x)14=18

double integration=0;
double deltax=0.01;
for(double x=1;x<=4;x+=deltax)
{
   integration+=(2*x+1)*deltax;
}

3 你使用过三重累加吗?描述一下其应用.
答:三重累加在一定条件下可以转化为三重积分,在数学上,三重积分可以看作是几何体的测度,在物理应用上,可以看作是不均匀物体的质量。
4 给一个常用的积分,将手算结果与程序结果相比对.
答: ∫ 0 5 ( 2 x ) d x = x 2 ∣ 0 5 = 25 \int_{0}^5(2x)\mathrm{d}x=x^2\vert_0^5=25 05(2x)dx=x205=25
程序:
在这里插入图片描述
结果:
在这里插入图片描述

下午

题9.3

问题描述:自己写一个小例子 ( n = 3 , m = 1 ) (n=3,m=1) (n=3,m=1)来验证最小二乘法.
答:给定数据集 X = [ x i j ] 3 × 2 = [ 1 2 1 3 1 4 ] \mathbf{X}=[x_{ij}]_{3\times2}=\begin{bmatrix} 1&2\\ 1&3 \\1&4\end{bmatrix} X=[xij]3×2=111234与其标签 Y = [ y 1 , … , y n ] T = [ 5 , 7 , 9 ] T \mathbf{Y}=[y_1,\dots,y_n]^\mathrm{T}=[5, 7, 9]^{\mathrm{T}} Y=[y1,,yn]T=[5,7,9]T.
计算 w ∗ = arg min ⁡ w ∣ ∣ X w − Y ∣ ∣ 2 2 , \mathbf{w}^*=\argmin_{\mathbf{w}}||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2, w=wargminXwY22,其中 ∣ ∣ X w − Y ∣ ∣ 2 2 = ( X w − Y ) T ( X w − Y ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y ||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2=(\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathrm{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y})=(\mathbf{w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}-\mathbf{Y}^{\mathrm{T}})(\mathbf{X}\mathbf{w}-\mathbf{Y})=\mathbf{w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{Y}-\mathbf{Y}^\mathrm{T}\mathbf{X}\mathbf{w}+\mathbf{Y}^\mathrm{T}\mathbf{Y} XwY22=(XwY)T(XwY)=(wTXTYT)(XwY)=wTXTXwwTXTYYTXw+YTY
w \mathbf{w} w求导并令其为0得: w = ( X T X ) − 1 X T Y = ( [ 1 1 1 2 3 4 ] × [ 1 2 1 3 1 4 ] ) − 1 × [ 1 1 1 2 3 4 ] × [ 5 7 9 ] \mathbf{w}=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y}=(\begin{bmatrix} 1&1&1\\2&3&4\end{bmatrix}\times \begin{bmatrix} 1&2\\1&3\\1&4\end{bmatrix})^{-1}\times \begin{bmatrix} 1&1&1\\2&3&4\end{bmatrix}\times\begin{bmatrix}5\\7\\9\end{bmatrix} w=(XTX)1XTY=([121314]×111234)1×[121314]×579
w = ( X T X ) − 1 X T Y = [ 3 9 9 29 ] − 1 × [ 21 67 ] = [ 29 6 − 3 2 − 3 2 1 2 ] × [ 21 67 ] = [ 1 2 ] \mathbf{w}=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y}=\begin{bmatrix}3&9\\9&29\end{bmatrix}^{-1}\times\begin{bmatrix}21\\67\end{bmatrix}=\begin{bmatrix}\frac{29}{6}&-\frac{3}{2}\\-\frac{3}{2}&\frac{1}{2}\end{bmatrix}\times\begin{bmatrix}21\\67\end{bmatrix}=\begin{bmatrix}1\\2\end{bmatrix} w=(XTX)1XTY=[39929]1×[2167]=[629232321]×[2167]=[12]
w = [ 1 2 ] \mathbf{w}=\begin{bmatrix}1\\2\end{bmatrix} w=[12].故模型为: y = 2 x + 1 y=2x+1 y=2x+1.
验证: ( x 1 , y 1 ) = ( 2 , 5 ) : 5 = 2 × 2 + 1 ; (x_1,y_1)=(2,5):5=2\times2+1; (x1,y1)=(2,5):5=2×2+1
( x 2 , y 2 ) = ( 3 , 7 ) : 7 = 2 × 3 + 1 ; (x_2,y_2)=(3,7):7=2\times3+1; (x2,y2)=(3,7):7=2×3+1
( x 3 , y 3 ) = ( 4 , 9 ) : 9 = 2 × 4 + 1 ; (x_3,y_3)=(4,9):9=2\times4+1; (x3,y3)=(4,9):9=2×4+1
故使用最小二乘法得到的结果完全符合数据集的数据.

晚上

题10.6

问题描述:自己推导一遍,并描述这个方法的特点(不少于5条).
答:在二维平面分类,需要一条直线将它们分开,当是多维空间时,需要超平面将两类事物进行分类,分类成正例和负例。如何判断这个超平面将它们的效果是好是坏?可以根据分错的个数来判断,但是存在多个超平面都可以完全分开正例与负例呢,可以根据对象到超平面的距离来衡量(距离越大越好):分类正确,那么对象离超平面越远越好,分类不正确,离超平面越近越接近0.
1)计算点到超平面的距离= x w \mathbf{xw} xw
2)使用sigmoid函数将距离转换为概率 P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P(y=1|\mathbf{x};\mathbf{w})=\frac{1}{1+e^{-\mathbf{xw}}} P(y=1x;w)=1+exw1
含义为:距离越大,那么它是正例的概率接近1;如果距离很小 ( − ∞ ) (-\infty) ()时,它是正例的概率几乎为0,它为负例的概率接近1.
3)统一 y i = 0 y_i=0 yi=0 y i = 1 y_i=1 yi=1 P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i P(y_i\vert\mathbf{x}_i;\mathbf{w})=P(y_i=1\vert\mathbf{x}_i;\mathbf{w})^{y_i}(1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w}))^{1-y_i} P(yixi;w)=P(yi=1xi;w)yi(1P(yi=1xi;w))1yi
y i = 1 y_i=1 yi=1时: P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) P(y_i\vert\mathbf{x}_i;\mathbf{w})=P(y_i=1\vert\mathbf{x}_i;\mathbf{w}) P(yixi;w)=P(yi=1xi;w)
y i = 0 y_i=0 yi=0时: P ( y i ∣ x i ; w ) = 1 − P ( y i = 1 ∣ x i ; w ) P(y_i\vert\mathbf{x}_i;\mathbf{w})=1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w}) P(yixi;w)=1P(yi=1xi;w)
4)因为是概率,故用最大似然估计来定义优化目标: w = arg max ⁡ w ∏ i = 1 n P ( y i ∣ x i ; w ) \mathbf{w}=\argmax_{\mathbf{w}}\prod_{i=1}^{n}P(y_i\vert\mathbf{x}_i;\mathbf{w}) w=wargmaxi=1nP(yixi;w)
5)计算最大似然估计,由于是连乘,不方便计算,求其对数化简,不改变取得最大值的 w \mathbf{w} w的值: log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) \log L(\mathbf{w}) =\sum_{i=1}^{n}\log P(y_i\vert\mathbf{x}_i;\mathbf{w}) logL(w)=i=1nlogP(yixi;w)
log ⁡ L ( w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) \log L(\mathbf{w}) =\sum_{i=1}^{n}y_i\log P(y_i=1\vert\mathbf{x}_i;\mathbf{w})+(1-y_i)\log(1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w})) logL(w)=i=1nyilogP(yi=1xi;w)+(1yi)log(1P(yi=1xi;w))
log ⁡ L ( w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) \log L(\mathbf{w}) =\sum_{i=1}^{n}y_i\log \frac{P(y_i=1\vert\mathbf{x}_i;\mathbf{w})}{1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w})}+\log(1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w})) logL(w)=i=1nyilog1P(yi=1xi;w)P(yi=1xi;w)+log(1P(yi=1xi;w))
log ⁡ L ( w ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) \log L(\mathbf{w}) =\sum_{i=1}^ny_i\mathbf{x}_i\mathbf{w}-\log(1+e^{\mathbf{x}_i\mathbf{w}}) logL(w)=i=1nyixiwlog(1+exiw)
6)对 w \mathbf{w} w求偏导为:
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i \frac{\partial \log L(\mathbf{w})}{\partial{\mathbf{w}}}=\sum_{i=1}^ny_i\mathbf{x}_i-\frac{e^{\mathbf{x}_i\mathbf{w}}}{1+e^{\mathbf{x}_i\mathbf{w}}}\mathbf{x}_i wlogL(w)=i=1nyixi1+exiwexiwxi
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i \frac{\partial \log L(\mathbf{w})}{\partial{\mathbf{w}}}=\sum_{i=1}^n(y_i-\frac{e^{\mathbf{x}_i\mathbf{w}}}{1+e^{\mathbf{x}_i\mathbf{w}}})\mathbf{x}_i wlogL(w)=i=1n(yi1+exiwexiw)xi
7)由于无法通过导数为0来得到极值,故使用梯度下降法:
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w \mathbf{w}^{t+1}=\mathbf{w}^{t}-\alpha\frac{\partial \log L(\mathbf{w})}{\partial{\mathbf{w}}} wt+1=wtαwlogL(w)不断更新,直到导数为0或接近0.
特点:
1)使用点到超平面的距离: x w \mathbf{xw} xw
2)使用了sigmoid函数,将距离映射成概率;
3)将 w \mathbf{w} w写成参数;
4)将 y i = 1 y_i=1 yi=1 y i = 0 y_i=0 yi=0统一成一个表达式;
5)每个对象都考虑,使用连乘;
6)取 log ⁡ \log log简化优化目标;
7)使用最大似然估计试图直接求出 w \mathbf{w} w
8)求导为0计算最小值失败时,采用了梯度下降法.

第四天

第五天

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值