枯燥乏味之离散数学集合，关系，元组，范数

最新推荐文章于 2024-05-27 22:51:05 发布

蓝子娃娃

最新推荐文章于 2024-05-27 22:51:05 发布

阅读量1.7k

点赞数 1

分类专栏：离散数学

本文链接：https://blog.csdn.net/qq_41033011/article/details/116322404

版权

离散数学专栏收录该内容

7 篇文章

订阅专栏

1. 集合

话不多说，先甩一张图。
在这里插入图片描述

1.1 集合定义

由上图可知，集合通常有三种表示方法。

列举法：无疑是最没有技术含量的，一股脑把集合中的元素全部写出来。如： $\Alpha$ = {0, 1, 2, 3, 4, 5} 是阿拉伯数字的集合； $\Nu$ = {0, 1, 2,…} 是自然数的集合；
描述法：有些地方叫谓词法。如： $\Alpha$ = { $x$ ∈ $\Nu$ | $x$ mod 2 = 1};
韦恩图：通常用一个圆来代表一个集合;

问题来了：集合 $\Alpha$ = {0, 1, {0, 1} , {1, 2}} 有几个元素? 机器学习中, 这类形式的集合有什么优点和缺点?

用 $c a r d$ 表示有限集 $\Alpha$ 中的元素个数， $c a r d$ ( $\Alpha$ ) = 4。
在机器学习中，我们通常会用自然数表示分类任务中的标签。例如，0 通常表示第一类，1 表示第二类，依次类推。集合 $\Alpha$ 通常会被用在多标签分类任务中。一个实例可能有一个或多个标签，类似于选择题中的不定项选择题。对于集合 $\Alpha$ ，我们可以认为它的标签数目不是固定的，有的一个标签，有的有两个标签，但是标签的总数是固定的，有 3 类。我们在标签编码时，可以使用标签补齐的方法，将缺失的标签全部用 0 标记，这样就不能使用 one-hot 编码了。例如，标签总数为 10，编号 0-9，一张图片中包含 0，3，9 号标签，那么这张图片的标签编码为：1 0 0 1 0 0 0 0 0 1。而且在多标签分类任务中，最后一层的输出就不能看成一个分布了，因为加起来不为 1，可以把输出层每个神经元看作一个二项分布，这相当于将一个多标签问题转化为在每个标签上的二分类问题。

令 $\mathbf{A}=\{5,6,7,8,9\}$ ,写出 $\mathbf{A}$ 的其它两种表示方法。
① 描述法： $\mathbf{A} = \{x \vert x \in \mathbf{N}, 4 < x < 10\}$ , 源码为 \mathbf{A} = {x \vert x \in \mathbf{N}, 4 < x < 10}。
② 枚举法： $5..9] = \{5,6,7,8,9\}$ ，源码为 [5…9] = {5,6,7,8,9}.

1.2 基数

1.2.1 无穷集合比较大小

说到基数，先提一下无穷集合比较大小。

首先提出一个问题 “自然数的个数和正偶数的个数哪个多呢？” 有人说，当然是自然数的个数多，因为自然数包括正偶数；也有人说这两类数的个数都是无穷大，所以应该是一样多。

这里面引出来一个很本质的问题，到底比较两个集合元素个数多少的标准是什么？虽然我们还是孩子的时候，就知道自己分了一个苹果而其他小朋友分到了两个苹果是不公平的，但是直到19世纪末，才由伟大的集合论开创者康托尔提出集合元素个数之间严格比较大小的标准。

我们平时一般靠数数来记录一个集合元素的个数，再比较这两个数字大小来确定两个集合之间谁的元素更多，实际上这是在拿一个集合的元素去与自然数集合的元素做对应。如果某个集合中的元素能够与从小到大排列的自然数某个子集建立一一对应，那么就认为这个集合中元素的个数就是自然数子集中最大的那个数。

再提出一个问题？下面的两条线段哪一条中包含的点更多？
在这里插入图片描述
我第一次看到这个问题就觉得肯定有鬼。肯定不是下面这条长，应该是一样长，但是又不知道为什么它们一样长。我的导师直接画了两条线，我就恍然大悟了。

下面那条线中的任一点总能在上面那一条线找到一一对应的点。这就是康托尔提出集合之间元素个数多少的判定标准，集合之间元素个数多少的比较，本质上在于集合间的对应（映射）。

如果两个集合 A 和 B 之间能够建立一一对应（集合论中将这种对应叫做双射），那么就说这两个集合的元素个数一样多，记作 $|\Alpha|$ = $|\Beta|$ ；如果能够建立 A 到 B 的单射（指每个 A 中的元素都对应一个 B 中的元素，且不同的 A 中元素对应的B中元素也不同），那么就说集合 B 的元素个数不少于 A 的元素个数，记作 $|\Alpha| \leq$ $|\Beta|$ 或 $|\Beta| \geq$ $|\Alpha|$ 。

对于元素个数有限的有限集来说，这种判定标准与日常人们熟悉的“数数”判定标准是一样的。一个有着100个元素的集合肯定能够与另外一个也有着100个元素的集合建立一一对应，但是绝不能与一个有着101个元素的集合建立起一一对应。

设 $\Nu$ = {1, 2, 3, …} 是自然数集合， $\Epsilon$ = {2, 4, 6,…} 是正偶数集合， $n \in$ $\Nu$ ， $e \in$ $\Epsilon$ ，则建立集合 $\Nu$ 到 $\Epsilon$ 之间的映射 $f$ ： $\Nu$ $\to$ $\Epsilon$ 为 $e = f (n) = 2 n$ 。由此我们知道了，自然数的个数与正偶数的个数是一样多的。

1.2.2 基数

有了前面关于集合元素个数比较大小的标准，我们就可以定义一个概念 —— 集合的基数。作为普及性文章，我们没有必要给出严格的基数定义，描述性的来说，

基数就是一个集合元素的个数（集合的基数有时也被叫做集合的势）。

显然，对于有限集合来说，其基数就是这个集合的元素的个数，必然是一个自然数。但是对于无限集合来说，由于其元素个数无穷多，没有一个自然数能够表示，我们需要定义一些新的 “数”。我们首先定义自然数的个数是 ℵ₀ （这个符号来自于希伯来字母，可以读作阿列夫，自然数的个数就是阿列夫零）。显然，我们知道有理数、整数、奇数、偶数、代数数的个数都是 ℵ₀ 。

那么问题来了，∅ 的基数是多少? { ∅ } 呢?

$c a r d (\emptyset)$ = 0; $c a r d$ ( {∅} ) = 1

1.3 笛卡尔积

我们最常用的是笛卡尔坐标系，一维数轴可表示为 $\Bbb{R}$ ，二维平面可表示为 $\Bbb{R}$ $\times$ $\Bbb{R}$ = $\Bbb{R}^2$ ， $n$ 维空间当然就是 $\Bbb{R}^n$ 了。

一维数轴上的点就是一个实数 $x$ ∈ $\Bbb{R}$
二维数轴上的点就是一个实数对 $(x, y)$ ∈ $\Bbb{R}^2$
一维数轴上的点就是一个向量( $x_1, x_2,..., x_n)$ ∈ $\Bbb{R}^n$

设 $\Alpha$ 和 $\Beta$ 是两个集合，称集合 $\Alpha$ $\times$ $\Beta$ = {< $x, y$ > | ( $x \in$ $\Alpha$ ) $\wedge$ ( $y \in$ $\Beta$ ) } 为集合 $\Alpha$ 与 $\Beta$ 的笛卡尔积。

由笛卡尔积定义可以看出：

设 $\Alpha$ , $\Beta$ 是任意两个集合，则不一定有 $\Alpha$ $\times$ $\Beta$ = $\Beta$ $\times$ $\Alpha$ ，即笛卡尔积不满足交换律；
$\Alpha$ $\times$ $\Beta$ = ∅ 当且仅当 $\Alpha$ = ∅ 或者 $\Beta$ = ∅；
设 $\Alpha$ , $\Beta$ , $C$ 是任意三个集合，则不一定有 $\Alpha$ $\times$ $(\Beta$ $\times$ $C)$ = （ $\Alpha$ $\times$ $\Beta$ ) $\times$ $C$ ，即笛卡尔积不满足结合律；
当集合 $\Alpha$ , $\Beta$ 都是有限集时， $|\Alpha$ $\times$ $\Beta|$ = $|\Beta$ $\times$ $\Alpha|$ = $|\Alpha|$ $\times$ $|\Beta|$ ;
笛卡尔积对并运算和交运算满足分配律。

上述 4 在机器学习中最为常见，可以完美地表示混合类型的数据。任何实例都可以使用这种元素描述，但反过来，并非所有的元素都对应于数据集中的一个实例，即数据不会填满整个空间，甚至通常在这个空间内是非常稀疏的。找出数据在空间中的分布规律，这也是数据挖掘的基本意义。

说到数据集，这里介绍两种表示方法。

矩阵表示法：
当各个属性都为实型值时，数据集可表示为 $D$ ∈ $\Bbb{R}^{n \times m)}$ ，它表示每个实际的数据集，都是 $\times m$ 维空间的一个点而已。如果记 $D = (x_1, x_2,..., x_n)^T$ ，则 $x_i$ ∈ $\Bbb{R}^ m$ ;
集合与向量混合法
$D$ = { $x_1, x_2,..., x_n$ }，则 $x_i$ ∈ $\Bbb{R}^ m$ ;

优缺点

集合与向量混合法中，元素可以随意交换顺序，这与现实数据的独立性一致。
集合与向量混合法中，不允许两个元素相同，这与现实情况不一致。
矩阵表示法可以支持矩阵的相乘,，易于表示加权等操作,，用于神经网络，线性回归时方便。

注意：在机器学习中，经常用一个列向量表示一个实例。

1.4 幂集

设 $\Alpha$ 为任意集合，以 $\Alpha$ 的子集为元素所组成的集合，称为 $\Alpha$ 的幂集。

$P(\Alpha) =$ { $x ∣$ $\subseteq \Alpha$ }; 若 $|\Alpha|$ = $n$ ，则 $|P(\Alpha)| =$ $2^n$

举例：
① $P(\emptyset)$ = { $\emptyset$ }
② $P$ ({ $\emptyset$ }) = { $\emptyset$ , { $\emptyset$ }}
③ $P$ ({1, {2, 3}}) = { $\emptyset$ , {1}, {2,3}, {1, {2, 3}}}
④ 令 $\mathbf{A}=\{3,5\}$ , $P (A)$ = { $\emptyset$ , {3}, {5}, {3,5}}

幂集不仅限于有穷集，对于任意无穷集也有效。

2. 二元关系

二元关系的数学定义：Let $\mathbf{A}$ and $\mathbf{B}$ be sets. Any $\mathbf{R} \subseteq$ $\mathbf{A} \times \mathbf{B}$ is called a binary relation.

其实不用想得太复杂，关系就是关系。比如，1 < 2 是二元关系，我爱学习也是二元关系。我认为如果两个东西之间有联系，并且说明了联系的方式，那就可以称之为关系。

另外，两个集合的笛卡尔积是遍历了所有的 “对”，之所以是子集是因为上述 “联系的描述” 可能对某些对有效，对某些对无效。

在平面直角坐标系中, 等于关系就是 45 度方向的一条线 ( $x = y$ )；小于关系就是这条线的左上部分 ( $x < y$ )；同理，大于关系就是这条线的右下部分 ( $x > y$ )。如果 $\mathbf{A}$ = $\mathbf{B}$ = $\mathbb{N}$ ，即它们都为整数集合，则 $\mathbf{R}^=$ = {(0, 0), (1, 1), (2, 2), $\dots$ }；如果 $\mathbf{A}$ = $\mathbf{B}$ = $\mathbb{R}$ ，则 $\mathbf{R}^<$ = { $\in \mathbb{R}^2 \vert x < y$ }，在二维平面上，它表示 $y = x$ 左上方向的区域。

二元关系的性质。对于 $\mathbf{A}$ 的关系，即 $\mathbf{R} \subseteq \mathbf{A} \times \mathbf{A}$ .
①自反性：如果 $\forall x \in \mathbf{A}$ ，均有 $\in \mathbf{R}$ ，则称 $\mathbf{R}$ 具有自反性。
② 对称性：如果 $\forall (x, y) \in \mathbf{R}$ ，均有 $\forall (y, x) \in \mathbf{R}$ ，则称 $\mathbf{R}$ 具有对称性。
③ 传递性：如果 $\forall (x, y), (y, z) \in \mathbf{R}$ ，均有 $\in \mathbf{R}$ ，则称 $\mathbf{R}$ 具有传递性。

二元关系的运算。
给定 $\mathbf{A} = \{a, b, c, d\}$ 上的关系 $\mathbf{R}_1 = \{(a, b), (a, c)\}$ 与 $\mathbf{R}_2 = \{(a, b), (c, d), (b, d)\}$ ，则 $\mathbf{R}_1\mathbf{R}_2$ = { $(a, d)$ }，这个有点像矩阵维度相乘（3x2 的矩阵与 2x4 的矩阵得 3x4 的矩阵），中间得有个媒介。
或者 $\mathbf{R}_1\mathbf{R}_2$ = { $\vert \exists(x, z) \in \mathbf{R}_1 \textrm{ and } (z, y) \in \mathbf{R}_2$ }.

给定 $\mathbf{A} = \{a, b, c, d\}$ 上的关系 $\mathbf{R}$ 。
① 正闭包： $\mathbf{R}^+ = \bigcup_{i=1}^{|\mathbf{A}|} \mathbf{R}^i$ .
② 克林闭包： $\mathbf{R}^* = \mathbf{R}^+ \cup \mathbf{A}^0$ ，其中 $\mathbf{A}^0 = \{(x, x) \vert x \in \mathbf{A}\}$ 。

练一练：

令 $\mathbf{A} = \{1, 2, 5, 8, 9\}$ ，写出 $\mathbf{A}$ 上的 “模2同余” 关系及相应的划分。

$\mathbf{R} = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \textrm{ mod } 2 = b \textrm{ mod } 2\}$ .
可将其划分为：
$\mathcal{P} = \{\{2, 8\}, \{1, 5, 9\}\}$ 。

给定 $\mathbf{A} = \{1, 2, 5, 8, 9\}$ 上的关系 $\mathbf{R}_1 = \{(1, 2), (5, 8)\}$ 与 $\mathbf{R}_2 = \{(2, 8), (8, 9), (2, 5)\}$ ，则

$\mathbf{R}_1\mathbf{R}_2$ = ${(1, 8), (1, 5), (5, 9)\}$ .
$\mathbf{R}_1^+$ = $\bigcup_{i=1}^i \mathbf{R}_i$ = ${(1, 2), (5, 8)\}$ .
$\mathbf{R}_1^*$ = $\mathbf{R}_1^+\bigcup \mathbf{A^0}$ = ${(1, 2), (5, 8), (1, 1), (2, 2), (5, 5), (8, 8)\}$ .

3. 函数

函数也叫映射、变换或对应。但是我们需要区别函数与方程的区别以及与关系的区别。

函数定义：设 $f$ 是集合 $\Alpha$ 到 $\Beta$ 的关系，如果对每个 $\Alpha$ ，都存在唯一的 $\Beta$ ，使得 < $x, y$ > ∈ $f$ ，则称关系 $f$ 为 $\Alpha$ 到 $\Beta$ 的函数，记作 $f$ : $\Alpha \to \Beta$ 。 $\Alpha$ 为函数 $f$ 的定义域， $f(\Alpha)$ 为函数 $f$ 的值域。

注意：

$f (x)$ 表示一个变值， $f$ 代表一个集合。因此 $\neq f(x)$ 。
$f (x)$ 是 $\Beta$ 的子集，即 $\Beta$ 中有些元素跟 $\Alpha$ 不对应也可以。
如果存在元素 $\Alpha$ ，在 $\Beta$ 中没有对应元素，那么关系 $f$ 就不是函数。
如果存在元素 $\Alpha$ ，在 $\Beta$ 中有两个或两个以上对应的元素，那么关系 $f$ 就不是函数。

辨别函数与方程：从本质上，方程就是一个等式，而函数是一个对应关系。

辨别函数与关系的联系与区别

在离散数学中，函数可以看作是一种特殊的二元关系
从 $\Alpha$ 到 $\Beta$ 的不同的关系有 2| $\Alpha$ || $\Beta$ |个，但从 $\Alpha$ 到 $\Beta$ 不同的函数却只有 | $\Alpha$ || $\Beta$ | 个。(每个 $\Beta$ 中的元素都可以有 $|\Alpha|$ 个 $\Alpha$ 中元素匹配)。
关系的第一个元素可以相同；函数的第一个元素一定是互不相同的。

举个栗子，令函数的定义域为 $D$ , 值域为 $V$ ，可以认为函数 $\times V$ 的子集，也就是一种特殊的关系。如 $x^2 + y^2 = 1$ ，它是二维平面 $\Bbb{R}^2$ 中的一个单位圆，为若干平面中的元素 (点) 所构成, 因此为 $\Bbb{R}$ 上（即定义域、值域均为 $\Bbb{R}$ ）的二元关系。但它不是一个函数。 $\sqrt{1 - x^2}$ 就既是函数，也是二元关系。

在机器学习中，单标签任务学习器可以看做一个函数（毫无疑问）。对于多标签分类器，一个实例 $x$ 虽然同时拥有多个标签，但是可以把多个标签看作一个标签组合，每个实例对应的标签组合是唯一的，所以多标签分类器仍然是一个函数。

举例说明你对函数的认识。.
我们先从理解最简单地例子开始： $f (x) = x + 1$ 给定一个 $x$ 的值，那么右边的式子的值为 2，那么 $f (x)$ 就是2。 $f$ 就是连接1 和 2 的一个函数。 $f$ 除了连接1 和 2 的关系，也同时可以连接 1.1 和 2.1 等等。

但是你以为你见到上面的例子就理解函数概念了么？没有！比方说你知道西瓜是绿色的，也是圆的。但是给你一个绿色的圆的东西，你就能一定知道是西瓜么？不行！所以你必须多看不同种类的西瓜，也看看冬瓜，南瓜这种相似的物种，然后你西瓜的概念就清晰起来。函数的种类是很多的，可以是用式子表示，也可以用图表表示。广义一点，输入可以是数，也可以是任何东西。我可以说函数 $f (x)$ = “智商的大小”，x表示人。那么 $f$ 就相当于给出对应每个人，即 $x$ 的智商大小。函数（英文：function），实际就是一种关系的连接，数学上称之为映射。也就是说如果你要用非数学的语言，给一个完全不懂数学概念的人讲解函数，那么就给出各种对应关系。慢慢的他脑中就会模模糊糊有一种感觉，好像这样子就是一个函数。如果真让他说什么是函数，那就说不出来。

这时候定义就有用了！我们再回顾下函数的概念。“给定一个数集 $\mathbf{A}$ ,对 $\mathbf{A}$ 施加对应法则 $f$ ，记作 $f(\mathbf{A})$ ,得到另一数集 $\mathbf{B}$ ,也就是 $\mathbf{B} = f(\mathbf{A})$ .那么这个关系式就叫函数关系式，简称函数。

下图能在你理解了函数基础上更加强你的理解。

在这里插入图片描述

4. 元组（tuple）

百度百科中提到。元组是关系库中的基本概念，关系是一张表，表中的每行（即数据库中的每条记录）就是一个元组，每列就是一个属性。在二维表中，元组也称为行或记录。

但是离散数学中的元组又与之不同，图（Graph）是最经典的元组，图可分为有向图和无向图。图的数学定义如下：

（1）A directed graph is a tuple $G_d = (\bm{V}, \bm{E})$ , where $\bm{V}$ = { $v_1, \dots, v_n$ } is the set of nodes, and $\bm{E} \subseteq \bm{V} \times \bm{V}$ is the set of edges.
（2）A undirected graph is a tuple $G_u = (\bm{V}, \bm{E})$ , where $\bm{V}$ = { $v_1, \dots, v_n$ } is the set of nodes, and $\bm{E} \subseteq \bm{V} \times \bm{V}$ is the set of edges, and $\langle v_i, v_j \rangle ∈ \bm{E} iff $\langle v_j, v_i \rangle ∈ \bm{E}$ .
iff 是 if and only if (当且仅当) 的缩写, 更多细节参考 mf 的博客

图又可以根据是否有权值分为带权有向图和带权无向图。其数学定义如下：

（1）A weighted directed graph is a tuple $G_{wd} = (\bm{V}, w)$ , where $\bm{V}$ = { $v_1, \dots, v_n$ } is the set of nodes, and $\bm{V} \times \bm{V} \to \Bbb{R}^+ \cup$ { $0$ } is the edge weight function.
（2）A weighted undirected graph is a tuple $G_{wu} = (\bm{V}, w)$ , where $\bm{V}$ = { $v_1, \dots, v_n$ } is the set of nodes, and $\bm{V} \times \bm{V} \to \Bbb{R}^+ \cup$ { $0$ } is the edge weight function, and $w(v_i, v_j)$ = $w(v_j, v_i)$ .

元组的数学定义请参考 mf 的博客的 Definition 6.

以 Python 为例。元组也是一种序列，元组使用小括号表示，元素中各元素之间用逗号隔开。元组不支持修改或删除其所包含的元素。这也是与列表最本质的区别，列表是动态数组，如果想要修改元组中的元素，可先将其转换成列表。

C++中也引入了元组 tuple, 可以定义任意多个类型的对象的组合，下面是 C++ tuple 的栗子。

#include <iostream>  
#include <vector>  
#include <string>  
#include <tuple>  
  
using namespace std;  
  
std::tuple<std::string, int>  
giveName(void)  
{  
    std::string cw("Caroline");  
    int a(2013);  
    std::tuple<std::string, int> t = std::make_tuple(cw, a);  
    return t;  
}  
  
int main()  
{  
    std::tuple<int, double, std::string> t(64, 128.0, "Caroline");  
    std::tuple<std::string, std::string, int> t2 =  
            std::make_tuple("Caroline", "Wendy", 1992);  
  
    //返回元素个数  
    size_t num = std::tuple_size<decltype(t)>::value;  
    std::cout << "num = " << num << std::endl;  
  
    //获取第1个值的元素类型  
    std::tuple_element<1, decltype(t)>::type cnt = std::get<1>(t);  
    std::cout << "cnt = " << cnt << std::endl;  
  
    //比较  
    std::tuple<int, int> ti(24, 48);  
    std::tuple<double, double> td(28.0, 56.0);  
    bool b = (ti < td);  
    std::cout << "b = " << b << std::endl;  
  
    //tuple作为返回值  
    auto a = giveName();  
    std::cout << "name: " << get<0>(a)  
            << " years: " << get<1>(a) << std::endl;  
  
    return 0;  
}

输出结果：

num = 3  
cnt = 128  
b = 1  
name: Caroline years: 2013

5. 范数

给定矩阵 $\mathbf{X} = [x_{ij}]_{n \times m}$ ，其 $l_p$ 范数定义为

$\\|\mathbf{X}\\|_p = \left (\sum_{ij} \vert x_{ij} \vert ^p \right)^{\frac{1}{p} \tag{1}}$

源码：|\mathbf{X}|p = \left (\sum{ij} \vert x_{ij} \vert ^p \right)^{\frac{1}{p} \tag{1}}

5.1 $l_0$ 范数

计算非零项个数。

$\\|\mathbf{X}\\|_0 = \vert \{(i, j) \vert x_{ij} \neq 0\}$

5.2 $l_1$ 范数

计算绝对值之和。

$\\|\mathbf{X}\\|_1 = \sum_{ij} \vert x_{ij} \vert$

5.3 $l_2$ 范数

计算平方和。

$\\|\mathbf{X}\\|_2^2 = \sum_{ij} x_{ij}^2$

5.4 $l_\infty$ 范数

$\\|\mathbf{X}\\|_\infty = \max_{ij} \vert x_{ij} \vert$
$\\|\mathbf{X}\\|_-\infty = \min_{ij} \vert x_{ij} \vert$

源码：||\mathbf{X}||{\infty} = \max{i, j} \vert x_{ij} \vert \tag{6}.

题目：假设矩阵 $\mathbf{A}$ ，计算各个范数。

$\left[ \begin{matrix} 1 & 0 & 2 \\ 3 & -1 & -3 \end{matrix} \right]$

$l_0$ = 5;
$l_1$ = 1 + 2 + 3 + 1 + 3 = 13;
$l_2 = \sqrt{1 + 4 + 9 + 1 + 9} = \sqrt{24} = 2\sqrt{6}$ ;
$l_\infty$ = 3;
$l_{-\infty}$ = 0;

原文链接：向量/矩阵的范数

6. min 与 argmin

原文链接： 7. min 与 argmin

min 即获得集合中的最小值，argmin 即获取函数取最小值时的参数。

在基于用户、商品信息的评分预测任务中，有评分矩阵 $\mathbf{R}$ ，用户信息表 $\mathbf{X} = [\mathbf{x}_1, \dots, \mathbf{x_n}]^\mathrm{T} = [x_{ij}]_{n \times d_u}$ ，商品信息表 $\mathbf{T} = [\mathbf{t}_1, \dots, \mathbf{t_m}]^\mathrm{T} = [t_{ij}]_{m \times d_t}$ ，其中 $d_u$ 是用户的属性数， $d_t$ 是商品属性数。输出函数 $R^{d_u} \times R^{d_t} \to R$ 。
有以下优化目标：
$\min \sum_{(i,j) \in \Omega} \left(f(\mathbf{x}_i, \mathbf{t}_i ) - r_{ij} \right)^2$

其中对象个数为 $\vert \Omega \vert$ ，条件属性个数为 $d_u + d_t$ ，该优化函数使用 $l_2$ 范数， $r_{ij}$ 为真实的评分， $f(\mathbf{x}_i, \mathbf{t}_i)$ 为预测的评分，其优化目标就是最小化预测评分和实际评分的差值和的平方。