机器学习之数学语言

##8月3日作业
1.写出本例中的 U \mathbf{U} U, C \mathbf{C} C, D \mathbf{D} D V \mathbf{V} V 注: 最后两个属性为决策属性
在这里插入图片描述
解: U = { x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 } \mathbf{U}=\{x_1,x_2,x_3,x_4,x_5,x_6,x_7\} U={x1,x2,x3,x4,x5,x6,x7} is the set of instances,
C = { H e a d a c h e , T e m p r a t u r e , L y m p h o c y t e , L e u k o c y t e , E o s i n o p h i l } \mathbf{C}=\{Headache,Temprature,Lymphocyte,Leukocyte,Eosinophil\} C={Headache,Temprature,Lymphocyte,Leukocyte,Eosinophil}
D = { H e a r t b e a t , F l u } \mathbf{D}=\{Heartbeat,Flu\} D={Heartbeat,Flu} is the set of decisional attributes,
V = ⋃ a ∈ C ∪ D V a \mathbf{V}=\bigcup_{a \in \mathbf{C} \cup \mathbf{D}}\mathbf{V_a} V=aCDVa,
V a \mathbf{V_a} Va is the domain of a ∈ C ∪ D a \in \mathbf{C} \cup \mathbf{D} aCD,
V = { \mathbf{V}=\{ V={Yes , , ,No , , ,High , , ,Normal , , ,Low , , ,Abnormal } \} }
2.定义一个标签分布系统, 即各标签的值不是 0/1, 而是 [ 0 , 1 ] [0, 1] [0,1]区间的实数, 且同一对象的标签和为 1.
解答:A binary class decision system is a tuple S = ( X , Y ) S = (\mathbf{X}, \mathbf{Y}) S=(X,Y) where X = [ x i j ] n × m ∈ R n × m \mathbf{X} = [x_{ij}]_{n \times m} \in \mathbb{R}^{n \times m} X=[xij]n×mRn×m is the data matrix,n is the number of instances,m is the number of features. Y \mathbf{Y} Y is a matrix, [ y i k ] n × l [y_{ik}]_{n\times l } [yik]n×l.l is the number of labels. y i = [ y i 1 , y i 2 , … , y i l ] ∈ [ 0 , 1 ] n \mathbf{y_i} = [y_{i1}, y_{i2}, \dots, y_{il}] \in [0, 1]^n yi=[yi1,yi2,,yil][0,1]n is a label array, y i ∘ I = 1 \mathbf{y_i}\circ \mathbf{I}=1 yiI=1, I \mathbf{I} I is the identity matrix of y T \mathbf{y}^\mathrm{T} yT.

  • y i = [ y i 1 , y i 2 , … , y i l ] . \mathbf{y_i} = [y_{i1}, y_{i_2}, \dots, y_{il}]. yi=[yi1,yi2,,yil].
    3.找一篇你们小组的论文来详细分析数学表达式, 包括其涵义, 规范, 优点和缺点.
    解答:https://kns.cnki.net/KXReader/Detail?TIMESTAMP=637639461182366641&DBCODE=CJFD&TABLEName=CJFDLAST2021&FileName=NJQX202101003&RESULT=1&SIGN=nyMGgJjI82brwEJWNeZjXkDSKK0%3d#
    (1). ∑ i = 1 m ( y ^ − y i ) 2 \sum_{i=1}^{m} \left ( \hat{y} - y_{i}\right )^2 i=1m(y^yi)2
    其中, y ^ \hat{y} y^表示 x x x通过含 θ 1 ∘ \theta_{1}^{\circ} θ1 θ 2 ∘ \theta_{2}^{\circ} θ2这两个参数的式子求得, y i y_{i} yi表示实际的 x x x对应的值, ( y ^ − y i ) 2 \left(\hat{y} - y_{i}\right )^2 (y^yi)2是求对应同一个x,预测值和实际值的差距,即误差,该值越大,说明误差越大,前面的 ∑ i = 1 m \sum_{i=1}^{m} i=1m求和符号表示,每一个例子的误差之和。整个式子就是求预测值和实际值的误差和,针对所有的例子。
    (2). Θ 1 = Θ 0 − α × ∇ f ( Θ ) ∣ Θ 0 \Theta^1=\Theta^0-\alpha \times \nabla f\left ( \Theta \right )|\Theta ^0 Θ1=Θ0α×f(Θ)Θ0
    (3). Θ 2 = Θ 1 − α × ∇ f ( Θ ) ∣ Θ 1 \Theta^2=\Theta^1-\alpha \times \nabla f\left ( \Theta \right )|\Theta ^1 Θ2=Θ1α×f(Θ)Θ1
    其中(2),(3)都是相同的意思,都是为了找最小的 Θ ( θ 1 , θ 2 ) \Theta(\theta_{1},\theta_{2}) Θ(θ1,θ2).
    对于(2), Θ 0 \Theta_{0} Θ0表示储存一组参数 ( θ 1 0 , θ 2 0 ) (\theta_{1}^{0},\theta_{2}^{0}) (θ10,θ20), α \alpha α是一个常数, α \alpha α很小,主要是记录步长, ∇ f ( Θ ) ∣ Θ 0 \nabla f\left ( \Theta \right )|\Theta ^0 f(Θ)Θ0是在 Θ 0 \Theta_{0} Θ0这点的导函数所对应的值,它决定方向,它向着梯度上升最快的方向进行,式子里面的减号( − - )是为了找梯度上升最快的方向的反方向,意思解释为了找梯度下降的方向,跟着函数的梯度下降,就能找到最小的 Θ \Theta Θ。式子(2)最终的目的就是求最小的 Θ 1 \Theta_{1} Θ1,根据这个式子迭代,就可以一点一点逼近最小的 Θ ( θ 1 , θ 2 ) \Theta(\theta_{1},\theta_{2}) Θ(θ1,θ2)
    (4). f ( Θ ) = 1 2 m ( X ⋅ Θ − Y ) T ( X ⋅ Θ − Y ) f(\Theta)=\frac{1}{2m}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )^\mathrm{T}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right ) f(Θ)=2m1(XΘY)T(XΘY)
    由文章上文知道: X = [ x 1 1 x 2 1 ⋮ ⋮ x 20 1 ] \mathbf{X}=\begin{bmatrix} x_1& 1\\ x_2& 1\\ \vdots&\vdots\\ x_{20}& 1 \end{bmatrix} X=x1x2x20111 Θ = [ θ 1 θ 2 ] \mathbf{\Theta }=\begin{bmatrix} \theta_1\\ \theta_2 \end{bmatrix} Θ=[θ1θ2], Y = [ y 1 y 2 ⋮ y 20 ] \mathbf{Y}=\begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_{20} \end{bmatrix} Y=y1y2y20,
    其中, X ⋅ Θ − Y \mathbf{X}\cdot\Theta-\mathbf{Y} XΘY的结果是一个 20 × 1 20\times1 20×1的矩阵(该文章上有20个例子),每一项表示对应的 x x x y ^ − y \hat{y}-y y^y ( X ⋅ Θ − Y ) T ( X ⋅ Θ − Y ) \left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )^\mathrm{T}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right ) (XΘY)T(XΘY)的结果是一个数,这个数是 ∑ i = 1 m ( y ^ − y i ) 2 \sum_{i=1}^{m} \left ( \hat{y} - y_{i}\right )^2 i=1m(y^yi)2 1 m \frac{1}{m} m1是表示平均到每一份上, 1 2 \frac{1}{2} 21是为了后续求导时不再有多余的常量(根据文章里说的)。
    (4)式表示损失函数。
    (5). ∇ f ( Θ ) = 1 m X T ( X ⋅ Θ − Y ) \nabla{f}(\Theta)=\frac{1}{m} \mathbf{X}^{\mathrm{T}}\left ( \mathbf{X}\cdot \Theta -\mathbf{Y} \right ) f(Θ)=m1XT(XΘY)是(4式的导函数,当导函数在某处可导且为0时,该点的 Θ \Theta Θ值就是最小的值。

8月2日作业

1.写出无向图的邻接矩阵。
在这里插入图片描述
解: A = [ 0 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 ] \mathbf{A}= \begin{bmatrix} 0 & 1 & 1 &1 \\ 1 & 0 &1 &0 \\ 1 & 1& 0 &1 \\ 1 & 0 & 1 &0 \end{bmatrix} A=0111101011011010
2.定义无向网络
解:
An undirected net is a tuple G={ V , w \mathbf{V},w V,w},where V \mathbf{V} V is the set of nodes,and w: V × V → R \mathbf{V} \times \mathbf{V} \to \mathbb{R} V×VRwhere w ( v i , v j ) w(v_i,v_j) w(vi,vj) is the weight of arc ⟨ v i , v j ⟩ \left \langle v_i,v_j\right \rangle vi,vj and the weight of arc ⟨ v j , v i ⟩ \left \langle v_j,v_i\right \rangle vj,vi .
3.自己画一棵树,将其元组各部分写出来(特别是函数p)。
解:
在这里插入图片描述
triple T = ( V , r , p ) \mathbf{T}=(\mathbf{V},r,p) T=(V,r,p)
V \mathbf{V} V is a set, { v 0 , v 1 , v 2 , v 3 , v 4 , v 5 , v 6 } \{v0,v1,v2,v3,v4,v5,v6\} {v0,v1,v2,v3,v4,v5,v6}.
r r r is a root.r is v 0 v0 v0.
p p p is a map means a child map to its parent,descripted as V → V ∪ { ϕ } \mathbf{V} \to \mathbf{V} \cup\{\phi\} VV{ϕ},satistying:

  • p ( r ) = ϕ p(r)=\phi p(r)=ϕ
  • ∀ v ∈ V , ∃ 1 \forall v \in \mathbf{V},\exist1 vV,1 n ≥ 0 , n \ge0, n0,st. p ( n ) ( v ) = r p^{(n)}(v)=r p(n)(v)=r
    例如: p ( v 5 ) = v 3 , p ( v 4 ) = v 3 , p ( v 3 ) = v 2 , p ( v 2 ) = v 0 , p ( v 1 ) = v 0 , p ( v 6 ) = v 0 , p ( v 0 ) = ϕ p(v5)=v3,p(v4)=v3,p(v3)=v2,p(v2)=v0,p(v1)=v0,p(v6)=v0,p(v0)=\phi p(v5)=v3,p(v4)=v3,p(v3)=v2,p(v2)=v0,p(v1)=v0,p(v6)=v0,p(v0)=ϕ
    4.针对该树,将代码中的变量值写出来(特别是parent数组)
    解:代码:
public class Tree {
	/**
	 * 节点数. 表示节点 v_0 至 v_{n-1}.
	 */
	int n;
	
	/**
	 * 根节点. 0 至 n-1.
	 */
	int root;
	
	/**
	 * 父节点.
	 */
	int[] parent;

	/**
	 * 构造一棵树, 第一个节点为根节点, 其余节点均为其直接子节点, 也均为叶节点.
	 */
	public Tree(int paraN) {
		n = paraN;
		parent = new int[n];
		parent[0] = -1; // -1 即 \phi
	}// Of the constructor
}//Of class Tree

这里的:

  • n=7
  • root=0
  • parent[7]=[-1,0,0,2,3,3,0],parent[0]表示v0的双亲节点,它为 ϕ \phi ϕ,对应的parent[0]=-1;parent[1]表示v1的双亲节点,v1的双亲节点为v0,对应的parent[1]=0.

4.画一棵三叉树, 并写出它的 child 数组.
解:
在这里插入图片描述
它的child数组为: [ 1 2 3 − 1 − 1 − 1 4 5 − 1 − 1 − 1 − 1 − 1 − 1 − 1 − 1 − 1 − 1 ] \begin{bmatrix} 1 &2 &3 \\ -1 & -1 &-1 \\ 4 & 5 &-1 \\ -1 & -1 &-1 \\ -1 & -1 &-1 \\ -1 & -1 &-1 \end{bmatrix} 114111215111311111
5.按照本贴风格, 重新定义树. 提示: 还是应该定义 parent 函数, 字母表里面只有一个元素.
解:Let ϕ \phi ϕ be the empty node, a tree is a triple T = ( V , r , p , Σ ) \mathbf{T} = ( \mathbf{V} , r ,p,\Sigma ) T=(V,r,p,Σ)

  • V \mathbf{V} V is the set of nodes;
  • r ∈ V r \in \mathbf{V} rV,r is the root node;
  • V → V ∪ { ϕ } \mathbf{V} \to \mathbf{V} \cup \{\phi\} VV{ϕ} is the parent mapping satisfying
    • p ( r ) = ϕ p(r)=\phi p(r)=ϕ;
    • ∀ v ∈ V , ∃ 1 n ≥ 0 , s t . p ( n ) ( v ) = r \forall v \in \mathbf{V}, \exist 1 n \ge 0, st. p^{(n)}(v) = r vV,1n0,st.p(n)(v)=r
  • Σ \Sigma Σ is the alphabet,is an element;

6.根据图、树、 m − m- m叉树的学习, 谈谈你对元组的理解.
解答:元组可以表示不同数据类型的数据组成的一组值,元组中的数据可以有一定的关系,一个元组可以表示一个对象。

7月28日作业

  • 将向量下标为偶数的分量 (x2, x4, …) 累加, 写出相应表达式.
    解: ∑ i m o d    2 = 0 , i > 0 , i ∈ N n x i \sum_{i \mod 2=0,i>0,i\in \mathbb{N}}^{n}x_i imod2=0,i>0,iNnxi
  • 各出一道累加、累乘、积分表达式的习题, 并给出标准答案.
    解:
    累加: ∑ i = 0 10 i = ( 0 + 1 + ⋯ + 9 + 10 ) = ( 0 + 10 ) × 11 2 \sum_{i =0}^{10} i=(0+1+\dots+9+10)=\frac{(0+10)\times11}{2} i=010i=(0+1++9+10)=2(0+10)×11
    ∑ i = 0 10 i = 55 \sum_{i=0}^{10} i=55 i=010i=55
    累乘:
    ∏ i = 1 4 i = 1 × 2 × 3 × 4 = 24 \prod_{i = 1}^{4} i =1 \times2 \times 3 \times 4 =24 i=14i=1×2×3×4=24
    积分表达式:
    ∫ 0 10 x 2 + x + 1 d x = 1 0 3 3 + 1 0 2 2 + 10 − ( 0 ) \int_{0}^{10} x^2 + x + 1 \mathrm{d}x =\frac{10^3}{3}+\frac{10^2}{2}+10-(0) 010x2+x+1dx=3103+2102+10(0)
    ∫ 0 10 x 2 + x + 1 d x = 393.333 \int_{0}^{10} x^2 + x + 1 \mathrm{d}x =393.333 010x2+x+1dx=393.333
  • 你使用过三重累加吗? 描述一下其应用.
    三重累加可以应用在可以应用在三重积分中,例如,一重积分 ∫ x 1 x 2 x d x \int_{x_1}^{x_2} x \mathrm{d}x x1x2xdx ∑ x = x 1 x 2 x ⋅ d x \sum_{x=x_1}^{x_2} x \cdot \mathrm{d}x x=x1x2xdx,三重积分 ∫ x 1 x 2 ∫ y 1 y 2 ∫ z 1 z 2 x y x d x d y d z \int_{x_1}^{x_2} \int_{y_1}^{y_2} \int_{z_1}^{z_2} xyx\mathrm{d}x \mathrm{d}y \mathrm{d}z x1x2y1y2z1z2xyxdxdydz ∑ z = z 1 z 2 ∑ y = y 1 y 2 ∑ x = x 1 x 2 x ⋅ y ⋅ z ⋅ d x ⋅ d y ⋅ d z \sum_{z=z_1}^{z_2} \sum_{y=y_1}^{y_2} \sum_{x=x_1}^{x_2} x \cdot y \cdot z \cdot \mathrm{d}x\cdot \mathrm{d}y\cdot \mathrm{d}z z=z1z2y=y1y2x=x1x2xyzdxdydz
  • 给一个常用的定积分, 将手算结果与程序结果对比.
    ∫ 0 10 x 2 + x + 1 d x = 393.333 \int_{0}^{10} x^2 + x + 1 \mathrm{d}x =393.333 010x2+x+1dx=393.333
package integral;
public class integral1 {
	public static void main(String[] args) {
		// TODO 自动生成的方法存根
		double  ret=0;
		double steps=0.00001;
		for(double x=0;x<10;x=x+steps) {
			ret+=(x*x+x+1)*steps;
		}
		System.out.println("ret="+ret);
	}
}

在这里插入图片描述

  • 线性回归:
    给定数据集 X = [ x i j ] n × ( m + 1 ) \mathbf{X}=[x_{ij}]_{n \times(m+1)} X=[xij]n×(m+1),它对应的输出标签是 Y = [ y 1 , … , y n ] T \mathbf{Y}=[y_1,\dots,y_n]^\mathrm{T} Y=[y1,,yn]T,用最小二乘法得到表示数据集经过计算与标签值的差距(离散程度),离散程度越小说明 X \mathbf{X} X经过运算输出的值越贴合标签值,线性回归的目的就是找到 w \mathbf{w} w,它是(m+1)×1 列向量,使的 X w \mathbf{X} \mathbf{w} Xw算出的值于 Y \mathbf{Y} Y贴合。
    arg min ⁡ w ∣ ∣ X w − Y ∣ ∣ 2 2 \argmin_\mathbf{w} ||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2 wargminXwY22
    其中:
    ∣ ∣ X w − Y ∣ ∣ 2 2 = ∑ i = 1 ( ∑ j = 1 x i j w j 1 ) − y i ) 2 = ( X w − Y ) T ( X w − Y ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y \begin{aligned} ||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2&=\sum_{i=1}(\sum_{j=1}x_{ij}w_{j1})-y_i)^2 \\ & =(\mathbf{X}\mathbf{w}-\mathbf{Y})^\mathrm{T}(\mathbf{X}\mathbf{w}-\mathbf{Y})\\ & =(\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}-\mathbf{Y}^\mathrm{T})(\mathbf{X}\mathbf{w}-\mathbf{Y})\\ &=\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{X}\mathbf{w}-\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{Y}-\mathbf{Y}^\mathrm{T}\mathbf{X}\mathbf{w}+\mathbf{Y}^\mathrm{T}\mathbf{Y} \end{aligned} XwY22=i=1(j=1xijwj1)yi)2=(XwY)T(XwY)=(wTXTYT)(XwY)=wTXTXwwTXTYYTXw+YTY
    将上式子进行 w \mathbf{w} w求导:
    X T X w − X T Y = 0 \mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathrm{T}}\mathbf{Y}=0 XTXwXTY=0
    移项后:
    w = ( X T X ) − 1 X T Y \mathbf{w}=(\mathbf{X}^\mathrm{T}\mathbf{X})^{-1}\mathbf{X}^\mathrm{T}\mathbf{Y} w=(XTX)1XTY
    岭回归:
    优化目标为:
    arg min ⁡ w ∣ ∣ x w − Y ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 2 2 = w T X T X w − w T X T Y − Y T X w + Y T Y + λ w T w \begin{aligned} \argmin_w||\mathbf{x}\mathbf{w}-\mathbf{Y}||_2^2+\lambda||\mathbf{w}||_2^2=\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{X}\mathbf{w}-\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{Y}-\mathbf{Y}^\mathrm{T}\mathbf{X}\mathbf{w}+\mathbf{Y}^\mathrm{T}\mathbf{Y}+\lambda\mathbf{w}^\mathrm{T}\mathbf{w}\\ \end{aligned} wargminxwY22+λw22=wTXTXwwTXTYYTXw+YTY+λwTw
    由上式求导逼近0:
    X T X w − X T Y + λ w = 0 w ( X T X + λ I ) = X T Y w = ( X T X + λ I ) X T Y \begin{aligned} \mathbf{X}^\mathrm{T}\mathbf{X}\mathbf{w}-\mathbf{X}^\mathrm{T}\mathbf{Y}+\lambda\mathbf{w}=0\\ \mathbf{w}(\mathbf{X}^\mathrm{T}\mathbf{X}+\lambda\mathbf{I})= \mathbf{X}^\mathrm{T}\mathbf{Y}\\ \mathbf{w}=(\mathbf{X}^\mathrm{T}\mathbf{X}+\lambda\mathbf{I})\mathbf{X}^\mathrm{T}\mathbf{Y} \end{aligned} XTXwXTY+λw=0w(XTX+λI)=XTYw=(XTX+λI)XTY

  • 作业:
    X = [ x i j ] 3 × ( 1 + 1 ) = [ 1 1 2 1 3 1 ] \mathbf{X}=[x_{ij}]_{3\times(1+1)}=\begin{bmatrix} 1& 1\\ 2&1 \\ 3&1 \end{bmatrix} X=[xij]3×(1+1)=123111,
    Y = [ y i j ] 3 × 1 = [ 3 5 7 ] \mathbf{Y}=[y_{ij}]_{3\times1}=\begin{bmatrix} 3\\ 5 \\ 7 \end{bmatrix} Y=[yij]3×1=357
    设置 w = [ w i j ] ( 1 + 1 ) × 1 [ w 1 b ] \mathbf{w}=[w_{ij}]_{(1+1)\times 1}\begin{bmatrix} w_1\\ b \end{bmatrix} w=[wij](1+1)×1[w1b]
    w = ( X T X ) − 1 X T Y \mathbf{w}=(\mathbf{X}^\mathrm{T}\mathbf{X})^{-1}\mathbf{X}^\mathrm{T}\mathbf{Y} w=(XTX)1XTY公式知道, w = [ 27 17 40 17 ] \mathbf{w}=\begin{bmatrix} \frac{27}{17}\\ \frac{40}{17} \end{bmatrix} w=[17271740]
    得到 w 1 = 27 17 w_1=\frac{27}{17} w1=1727, b = 40 17 b=\frac{40}{17} b=1740

  • Logistic 回归
    Logistic 回归用于分类。
    在m维空间上, m维向量 w \mathbf{w} w确定了一条直线,令 w \mathbf{w} w为列向量,点 x \mathbf{x} x w \mathbf{w} w的距离为 x \mathbf{x} x w \mathbf{w} w
    线性分类模型的目标, 是找到一个超平面, 把正例、负例分割
    已知sigmoid 函数为:
    在这里插入图片描述
    sigmoid 函数将距离转成 (我们以为的) 概率:
    p ( y = 1 ∣ x ; w ) = 1 1 + e − x w p(y = 1 \vert \mathbf{x}; \mathbf{w}) = \frac{1}{1 + e^{-\mathbf{xw}}} p(y=1x;w)=1+exw1
    统一 y i y_i yi不同取值(要么0要么1,分类问题):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i \mathbf{P}(y_i|x_i;\mathbf{w})=\mathbf{P}(y_i=1|x_i;\mathbf{w})^{y_i}(1-\mathbf{P}(y_i=1|x_i;\mathbf{w}))^{1-y_i} P(yixi;w)=P(yi=1xi;w)yi(1P(yi=1xi;w))1yi
    这个表示 y i = 1 y_i=1 yi=1的概率越大越好
    所以优化目标是:
    arg max ⁡ w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \argmax_w L(\mathbf{w})=\prod_{i=1}^n \mathbf{P}(y_i|\mathbf{x}_i;\mathbf{w}) wargmaxL(w)=i=1nP(yixi;w)
    进而在整体优化目标前加一个 l o g log log单调性不变而得到新的优化目标是:
    log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) \begin{aligned}\log L(\mathbf{w}) & = \sum_{i = 1}^n \log P(y_i \vert \mathbf{x}i; \mathbf{w}) \\ & = \sum{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}i; \mathbf{w})) \\ & = \sum{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}i; \mathbf{w}))\\ & = \sum{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1xi;w)+(1yi)log(1P(yi=1xi;w))=i=1nyilog1P(yi=1xi;w)P(yi=1xi;w)+log(1P(yi=1xi;w))=i=1nyixiwlog(1+exiw)
    w \mathbf{w} w求导:
    ∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} & = \sum_{i = 1}^n y_i \mathbf{x}_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}} \mathbf{x}i\\ & = \sum{i = 1}^n \left(y_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}}\right) \mathbf{x}_i\end{aligned} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi
    令该偏导为 0, 无法获得解析式, 因此用梯度下降.
    w t + 1 = w t − α ∂ l o g L ( w ) ∂ w \mathbf{w}^{t+1}=\mathbf{w}^t-\alpha\frac{\partial log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wtαwlogL(w)
    -作业:这个方法的特点在于:
    (1)用于分类,特别是二分类
    (2)优化目标利用概率最大来估计分类结果
    (3)适用于m维空间的分类, m ∈ N m \in \mathbb{N} mN
    (4)获取局部最优解
    (5)每个对象到超平面的距离, 来计算其损失. 如果正确分类, 则离超平面越远越好; 如果错误分类, 则离超平面越近越好

7月26日作业

  • 描述你在学习、使用数学表达式时的困难, 可举例说明.
    解答:
    (1)在用latex使用表达式的过程中,会因为不熟悉表达式中的使用东西而使用长得相近的符号,例如\phi和\empty或是\dots和直接打上三点或是\mathbf{x}^{\mathrm{T}}写成\mathbf{x} \top。
    (2)写数学表达式遇到的一个问题,分段函数的表示中的某一个函数如果因为太长而写成各个小部的形式,不是很好用分段函数的表达式表达,遇到这种情况一般用文字叙述各种情况,但是用文字的化等式的表达就不是很精炼,就显得很分散。
  • A = { 3 , 5 } \mathbf{A} = \{3, 5\} A={3,5}, 写出 2 A 2^{\mathbf{A}} 2A.
    解:
    2 A = { ∅ , { 3 } , { 5 } , { 3 , 5 } } 2^{\mathbf{A}}=\{\emptyset,\{3\},\{5\},\{3,5\}\} 2A={,{3},{5},{3,5}}
  • 展开 2 ∅ 2^{\emptyset} 2.
    解:
    2 ∅ = { ∅ } 2^{\emptyset}=\{\emptyset\} 2={}
  • A = { 5 , 6 , 7 , 8 , 9 } \mathbf{A} = \{5, 6, 7, 8, 9\} A={5,6,7,8,9}, 写出 A \mathbf{A} A 的其它两种表示法.
  • 解:
    枚举法: A = { 5 , 6 , … , 9 } \mathbf{A} = \{5, 6,\dots ,9\} A={5,6,,9}
    谓词法: A = { x ∣ x ∈ N , 5 ≤ x ≤ 9 } \mathbf{A} = \{x | x \in \mathbf{N},5 \le x \le 9 \} A={xxN,5x9}
  • 自己出数据, 做一个 3 × 2 3 \times 23×2 与 2 × 4 2 \times 42×4 的矩阵乘法.
    [ 1 2 3 4 5 6 ] × [ 1 2 1 2 1 2 1 2 ] = [ 3 6 3 6 7 14 7 14 11 22 11 22 ] \begin{bmatrix} 1&2\\ 3&4\\ 5&6 \end{bmatrix}\times \begin{bmatrix} 1&2&1&2\\ 1&2&1&2 \end{bmatrix}= \begin{bmatrix} 3&6&3&6 \\ 7&14&7&14\\ 11&22&11&22 \end{bmatrix} 135246×[11221122]=371161422371161422
  • Deep Multi-View Enhancement Hashing forImage Retrieval的错误
    (1) O = { o i } i = 0 N O = \{o_i\}_{i=0}^N O={oi}i=0N应该是 O = { o i } i = 1 N O = \{o_i\}_{i=1}^N O={oi}i=1N
    (2) m _ t h m\_th m_th应该是$ m _ t h m\_th m_th
    (3)原文映射为 X → B \mathbf{X}\to \mathbf{B} XB,应该是 X ↦ B \mathbf{X}\mapsto\mathbf{B} XB

7月27日作业

作业

  • A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{1, 2, 5, 8, 9\} A={1,2,5,8,9} 写出 A \mathbf{A} A上的 “模 2 同余” 关系及相应的划分.
    解:“模二同余”关系: R = { ( x , y ) ∈ A × A ∣ x m o d    2 = y m o d    2 } \mathbf{R}=\{(x,y) \in \mathbf{A} \times \mathbf{A} \vert x \mod 2 =y \mod 2\} R={(x,y)A×Axmod2=ymod2}
    R = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) , ( 5 , 1 ) , ( 9 , 1 ) , ( 9 , 5 ) , ( 8 , 2 ) , ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}=\{(1,5),(1,9),(5,9),(2,8),(5,1),(9,1),(9,5),(8,2),(1,1),(2,2),(5,5),(8,8),(9,9)\} R={(1,5),(1,9),(5,9),(2,8),(5,1),(9,1),(9,5),(8,2),(1,1),(2,2),(5,5),(8,8),(9,9)}
    对原集合的划分为: P = { { 1 , 5 , 9 } , { 2 , 8 } } \mathcal{P}=\{\{1,5,9\},\{2,8\}\} P={{1,5,9},{2,8}}

  • A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{1, 2, 5, 8, 9\} A={1,2,5,8,9} ,自己给定两个关系 R 1 \mathbf{R1} R1 R 2 \mathbf{R2} R2,并计算 R 1 R 2 \mathbf{R}_1\mathbf{R}_2 R1R2, R 1 + \mathbf{R}_1^+ R1+, R 1 ∗ \mathbf{R}_1^* R1
    解:
    设: R 1 = { ( x , y ) ∈ A × A ∣ x = 1 , y m o d    2 = 1 } = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1=\{(x,y) \in \mathbf{A} \times \mathbf{A}\vert x =1,y \mod 2=1\}=\{(1,1),(1,5),(1,9)\} R1={(x,y)A×Ax=1,ymod2=1}={(1,1),(1,5),(1,9)}
    R 2 = { ( 1 , 5 ) , ( 9 , 8 ) } \mathbf{R}_2=\{(1,5),(9,8)\} R2={(1,5),(9,8)}
    (1). R 1 R 2 = { ( 1 , 5 ) , ( 1 , 8 ) } \mathbf{R}_1\mathbf{R}_2=\{(1,5),(1,8)\} R1R2={(1,5),(1,8)}
    (2). R 1 + = ⋃ i = 1 ∣ A ∣ R 1 i \mathbf{R}_1^+=\bigcup_{i = 1}^{\vert \mathbf{A} \vert} \mathbf{R}_1^i R1+=i=1AR1i
    首先求出 R 1 1 = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1^1=\{(1,1),(1,5),(1,9)\} R11={(1,1),(1,5),(1,9)}
    再求出 R 1 2 = R 1 1 × R 1 = R 1 1 { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1^2=\mathbf{R}_1^1 \times \mathbf{R}_1=\mathbf{R}_1^1\{(1,1),(1,5),(1,9)\} R12=R11×R1=R11{(1,1),(1,5),(1,9)}
    再求出 R 1 3 = R 1 2 × R 1 = { ∅ } \mathbf{R}_1^3=\mathbf{R}_1^2 \times \mathbf{R}_1=\{\empty\} R13=R12×R1={}
    之后对于i=4,i=5,则 R 1 i = ∅ \mathbf{R}_1^i={\empty} R1i=
    R 1 + = R 1 1 ∪ R 1 2 ∪ R 1 3 ∪ R 1 4 ∪ R 1 5 = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1^+=\mathbf{R}_1^1 \cup \mathbf{R}_1^2 \cup \mathbf{R}_1^3 \cup \mathbf{R}_1^4 \cup \mathbf{R}_1^5=\{(1,1),(1,5),(1,9)\} R1+=R11R12R13R14R15={(1,1),(1,5),(1,9)}
    (3). R 1 ∗ = R 1 + ∪ I R 1 0 \mathbf{R}_1^*=\mathbf{R}_1^+ \cup \mathbf{I_{R1}^0} R1=R1+IR10,其中 A 0 = { ( x , x ) ∣ x ∈ A } \mathbf{A^0}=\{(x,x) \vert x \in \mathbf{A}\} A0={(x,x)xA}
    A 0 = { ( 1 , 1 ) , ( 5 , 5 ) , ( 9 , 9 ) } \mathbf{A^0}=\{(1,1),(5,5),(9,9)\} A0={(1,1),(5,5),(9,9)}
    R 1 ∗ = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 5 ) , ( 9 , 9 ) } \mathbf{R}_1^*=\{(1,1),(1,5),(1,9),(5,5),(9,9)\} R1={(1,1),(1,5),(1,9),(5,5),(9,9)}

  • 查阅粗糙集上下近似的定义并大致描述.
    (1)下近似集是在那些所有的包含于X 的知识库中的集合中求并得到的(包含在X内的最大可定义集)
    (2)上近似则是将那些包含X的知识库中的集合求并得到的(包含X的最小可定义集)
    详细介绍:https://blog.csdn.net/qq_42769683/article/details/88321727
    参考例子:https://www.jianshu.com/p/ab3135fd5d40

  • 举例说明你对函数的认识.
    解答:函数像是一个c语言的方法,每个函数有自己的计算方法,输入参数进去,经过函数相应运算得一个确定的运算结果。

  • 自己给定一个矩阵并计算其各种范数.

  • 解:设 X = [ 1 2 3 4 ] \mathbf{X}=\begin{bmatrix} 1&2 \\ 3&4 \end{bmatrix} X=[1324]
    (1) l 0 l_0 l0范数:
    ∣ ∣ X ∣ ∣ 0 = ∣ { ( i , j ) ∣ x i j ≠ 0 } ∣ ||\mathbf{X}||_0=\vert \{(i,j)\vert x_{ij} \neq 0\}\vert X0={(i,j)xij=0}
    ∣ ∣ X ∣ ∣ 0 ||\mathbf{X}||_0 X0是非0项的数目: ∣ ∣ X ∣ ∣ 0 = 4 ||\mathbf{X}||_0=4 X0=4
    (2). l 1 l_1 l1范数: ∣ ∣ X ∣ ∣ 1 = ∑ i , j ∣ x i j ∣ = ∣ 1 ∣ + ∣ 2 ∣ + ∣ 3 ∣ + ∣ 4 ∣ = 10 ||\mathbf{X}||_1 = \sum_{i, j} \vert x_{ij}\vert =\vert1\vert+\vert2\vert+\vert3\vert+\vert4\vert=10 X1=i,jxij=1+2+3+4=10
    (3) l 2 l_2 l2范数: ∣ ∣ X ∣ ∣ 2 = ∑ i , j x i j 2 = 1 2 + 2 2 + 3 3 + 4 2 = 30 ||\mathbf{X}||_2 = \sqrt{\sum_{i, j} x^2_{ij}} =\sqrt{1^2+2^2+3^3+4^2}=\sqrt{30} X2=i,jxij2 =12+22+33+42 =30
    ∣ ∣ X ∣ ∣ 2 = 5.477 ||\mathbf{X}||_2 =5.477 X2=5.477
    (4) l ∞ l_\infty l范数: ∣ ∣ X ∣ ∣ ∞ = max ⁡ i , j ∣ x i j ∣ = ∣ 4 ∣ = 4 ||\mathbf{X}||_{\infty} = \max_{i, j} \vert x_{ij} \vert=\vert4\vert=4 X=i,jmaxxij=4=4
    (5) l p l_p lp范数: ∣ ∣ X ∣ ∣ p = ( ∑ i , j ∣ x i j ∣ p ) 1 p ||\mathbf{X}||_p = \left( \sum_{i, j} \vert x_{ij}\vert^p\right)^\frac{1}{p} Xp=(i,jxijp)p1
    令p=3, ∣ ∣ X ∣ ∣ 3 = ( ∑ i , j ∣ x i j ∣ 3 ) 1 3 ||\mathbf{X}||_3 = \left( \sum_{i, j} \vert x_{ij}\vert^3\right)^\frac{1}{3} X3=(i,jxij3)31
    ∣ ∣ X ∣ ∣ 3 = ( ∣ 1 ∣ 3 + ∣ 2 ∣ 3 + ∣ 3 ∣ 3 + ∣ 4 ∣ 3 ) 1 3 = 10 0 1 3 = 4.642 ||\mathbf{X}||_3 =( \vert1\vert ^3+\vert2\vert ^3+\vert3\vert ^3+\vert4\vert ^3)^\frac{1}{3}=100^\frac{1}{3}=4.642 X3=(13+23+33+43)31=10031=4.642

  • 解释 推荐系统: 问题、算法与研究思路 2.1 中的优化目标
    min ⁡ ∑ ( i , j ) ∈ Ω ( f ( x i , t j ) − r i j ) 2 \min \sum_{(i, j) \in \Omega} (f(\mathbf{x}_i, \mathbf{t}_j) - r_{ij})^2 min(i,j)Ω(f(xi,tj)rij)2各符号及含义.
    解答:用方差的方法求最小误差,求经过函数计算的值与评分表中对应的非零元素的差距,体现出差距的大小,目标就是让方差最小,求得最符合期望的值。

latex符号记录

基本
数学表达latex解释
∑ i = 1 n i \sum_{i = 1}^n i i=1ni\sum_{i = 1}^n i求和
n ( n + 1 ) 2 \frac{n (n + 1)}{2} 2n(n+1)\frac{n (n + 1)}{2}分数
a ≠ b a \ne b a=ba \ne b非等于
1 \sqrt{1} 1 \sqrt{1}开方
∏ i = 1 4 i \prod_{i = 1}^{4} i i=14i\prod_{i = 1}^{4} i累乘
∫ 0 10 x d x \int_{0}^{10}x \mathrm{d}x 010xdx\int_{0}^{10}x \mathrm{d}x定积分
集合
数学表达latex解释
x \mathbf{x} xmathbf{x}表示向量、集合
x \bm{x} x\bm{x}表示向量、集合
x \boldsymbol{x} x\boldsymbol{x}表示向量、集合
A = { 0 , 1 , 2 , …   } \mathbf{A} = \{0, 1, 2, \dots \} A={0,1,2,}\mathbf{A} = {0, 1, 2, \dots }集合
Ω = { 0 , 1 , 2 , …   } \mathbf{\Omega} = \{0, 1, 2, \dots \} Ω={0,1,2,}\mathbf{\Omega} = {0, 1, 2, \dots }
X = { x i } i = 1 n \mathbf{X} = \{x_i\}_{i = 1}^n X={xi}i=1n\mathbf{X} = {x_i}_{i = 1}^n表示集合有 n 个元素
x ∈ N x \in \mathbf{N} xNx \in \mathbf{N}存在 ∈ \in
R \mathbb{R} R\mathbb{R}实数集合
R \mathcal{R} R\mathcal{R}实数集合
∅ \emptyset \emptyset空集
A ⊆ B \mathbf{A} \subseteq \mathbf{B} AB\mathbf{A} \subseteq \mathbf{B}真子集
∣ X ∣ \vert \mathbf{X} \vert X\vert \mathbf{X} \vert X \mathbf{X} X中元素个数
X ∪ Y \mathbf{X} \cup \mathbf{Y} XY\mathbf{X} \cup \mathbf{Y}
X ∩ Y \mathbf{X} \cap \mathbf{Y} XY\mathbf{X} \cap \mathbf{Y}
X ∖ Y \mathbf{X} \setminus \mathbf{Y} XY\mathbf{X} \setminus \mathbf{Y}
X ‾ = U ∖ X \overline{\mathbf{X}} = \mathbf{U} \setminus \mathbf{X} X=UX\overline{\mathbf{X}} = \mathbf{U} \setminus \mathbf{X}
¬ X \neg \mathbf{X} ¬X\neg \mathbf{X}
⋃ i = 1 n X i \bigcup_{i = 1}^n \mathbf{X}_i i=1nXi\bigcup_{i = 1}^n \mathbf{X}_i表示n个集合的并
⋂ i = 1 n X i \bigcap_{i = 1}^n \mathbf{X}_i i=1nXi\bigcap_{i = 1}^n \mathbf{X}_i表示n个集合的交
2 A 2^{\mathbf{A}} 2A2^{\mathbf{A}}幂集
A × B \mathbf{A} \times \mathbf{B} A×B\mathbf{A} \times \mathbf{B}笛卡尔积
向量
数学表达latex解释
x T \mathbf{x}^{\mathrm{T}} xT\mathbf{x}^{\mathrm{T}}向量的转置
a ⋅ b \mathbf{a} \cdot \mathbf{b} ab\mathbf{a} \cdot \mathbf{b}内积
x w T = ∑ i = 1 n x i w i \mathbf{x}\mathbf{w}^{\mathrm{T}}=\sum_{i=1}^n \bm{x}_i \bm{w}_i xwT=i=1nxiwi\mathbf{x}\mathbf{w}{\mathrm{T}}=\sum_{i=1}n \bm{x}_i \bm{w}_i加权和
X ∈ R n × m \mathbf{X} \in \mathbb{R}^{n \times m} XRn×m\mathbf{X} \in \mathbb{R}^{n \times m}一个n行m列的矩阵
X = { x i } i = 1 n = { x 1 , x 2 , … , x n } \mathbf{X}=\{\mathbf{x}_i\}_{i=1}^n=\{\mathbf{x}_1,\mathbf{x}_2, \dots,\mathbf{x}_n \} X={xi}i=1n={x1,x2,,xn}\mathbf{X}={\mathbf{x}i}{i=1}^n={\mathbf{x}_1,\mathbf{x}_2, \dots,\mathbf{x}_n }矩阵(实例)表示
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值