第1章 绪论
1.2 基本术语
一组数据的集合称为一个 “数据集”(data set)
数据集中的每一条数据称为一个 “示例”(instance)或 “样本”(sample),它可以是一个事件或对象
(有时整个数据集亦称为一个“样本”,因为字母歌看作对样本空间的一个采样,通过上下文可判断出它是指单个示例还是数据集)
反映事件或对象在某方面的表现或性质,称为 “属性” (attribute) 或 “特征” (feature)
属性上的取值,称为“属性值”(attribute value)
各属性强成的空间称为“属性空间”(attribute space) 、“样本空间”(sample space) 或 “输入空间”
空间中每一个点对应一个坐标向量,因此把一个示例称为一个“特征向量”(feature vector)
从数据中觉得模型的过程称为“学习”(learning) 或 “训练”(trainning),这个过程通过执行某个学习算法来完成。
关于【分类】、【回归】、【聚类】
1) 若我们欲预测的是离散值,例如“好瓜”、“坏瓜”,此类学习任务称为“分类”(classification)
对只涉及两个类别的,叫“二分类”(binary classification), 分别叫“正类”(positive class),“负类”(negative class)
对多个类别时,叫多分类(multi-class classification)
2) 若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”(regression)
3) 将训练集中的西瓜根据相似性分为若干组,每组称为一个“簇”(cluster),此类学习任务称为“聚类”(clustering)
机器学得模型适用于新样本的能力,称为“泛化”(generalization)能力
关于【归纳】、【演绎】
1) 归纳(induction) 是从特殊到一般的"泛化"(generalization) 过程
2) 演绎(deduciton) 是从一般到特殊的“特化”(specialization) 过程
第2章 模型评估与选择
第3章 线性模型
3.1 基本形式
给定由 个属性描述的示例 ,其中 是 在第 个属性上的取值.
(3.1)
一般用向量形式写成
("T"符号来表示向量的转置)
其中 . 和 学得之后 ,模型就得以确定。
3.2 线性回归
线性关系:两个变量之间存在一次方函数关系,就称它们之间存在线性关系。
线性回归:是一种预测数值型数据的统计方法,它假设自变量()和因变量()之间存在线性关系。
在公式(3.1)中, 即 是因变量, 是自变量, 是模型的参数(系数), 是误差项
对离散属性,若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值,例如:
- 二值属性“身高”的取值“高”“矮”可转化为{1.0,0.0}
- 三值属性“高度”的取值“高”“中”“低”可转化为{1.0,0.5,0.0};
若属性值间不存在序关系,则通常将其转化为向量的形式,例如:
- 属性“瓜类”的取值 “西瓜” “南瓜” “黄瓜” 可转化为 {(0,0,1),(0,1,0),(1,0,0)}
线性回归试图学得:
, 使得
最终要确定其中的 和 。
“arg min”表示使 表达式达到最小值时自变量 和 的取值
指均方误差(Mean Squared Error, MSE):MSE是预测误差(即预测值与真实值之差)的平方的平均值。
求解 和 使
最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation),通过对 和 求偏导,然后令这两个偏导数等于零,来得到 和 的解。
其中: 为 x 的均值。
3.2.1 一元线性回归
参考《概率论与数理统计教程》第三版,茆诗松,高等教育出版社,第八章 方差分析与回归分析
回归分析处理的是变量与变量间的关系。常见的关系有两类:
一类是确定性关系:如面积S与边长a 之间的关系
另一类是相关关系:如人的身高x 与体重y 的关系。
变量间的相关关系不同用完全确定的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。
第一类回归问题:
设 与 间有相关关系,称 为自变量, 为因变量,在知道 的取值后, 的取值并不是确定的,它是一相随机变量,因此有一个分布,这个分布是在知道 的取值后 的条件密度函数,我们关心的是 的均值,它是 的函数,这个函数是确定性的:
这便是 关于 的回归函数——条件期望。
上述的 与 均为随机变量场合进行的。
第二类回归问题:
还有一种情况,自变量 是可控变量(一般变量),只有 是随机变量,它们之间的相关关系可表示为:
其中 是随机误差,一般假设 。由于ε 的随机性,导致 是随机变量。
基础知识备注:
表达式 ε∼N(0,σ2) 表示随机变量 ε 服从均值为 0,方差为 σ2 的正态分布(Normal Distribution),也称为高斯分布(Gaussian Distribution)。
具体来说:
- N(0,σ2) 是正态分布的记法,其中 N 代表正态分布(Normal Distribution),括号内的两个参数分别表示分布的均值(Mean)和方差(Variance)。
- 第一个参数 0 是均值 μ,它表示正态分布曲线关于直线 x=0 对称,也就是说,该分布的数据平均值为 0。
- 第二个参数 σ2 是方差,它表示随机变量 ε 与其均值(即 0)之间的平均平方偏差。方差的正平方根 σ 称为标准差(Standard Deviation),它衡量了数据分布的离散程度。标准差越大,数据分布越广;标准差越小,数据分布越集中。
3.2.2 最小二乘法
统计建模和预测中的一个通用流程是:我们用一组观测数据去估计模型的参数,再用解得的模型计算预测数据。由于观测难免会存在不同因素引起的误差,所以需求观测多组数据,但我们找不到一条直线/曲线可以经过这些数据,即:方程无确定解,不过我们可以通过求出近似解,使得模型能在各个观测点上达到“最佳“拟合。专家们采用“最小化误差的平方和”寻找数据的最佳函数匹配。此为最小二乘法(又称最小平方法),所谓“二乘”就是平方的意思。
假设我们有一组观测数据点 (x1,y1),(x2,y2),…,(xn,yn),我们想要找到一个线性模型 y=β0+β1x 来拟合这些数据。(β1为斜率,β0为截距)
首先,我们需要从收集到的数据(xi, yi)(i=1,2,…,n)进行估计β1和β0的值,简单常用 的一元线性回归的统计模型:
由数据(xi, yi)(i=1,2,…,n)可以获得β0,β1的估计 和 ,称
此为y关于x 的经验回归函数,简称 为回归方程,其图形称为回归直线。
例如:给定x=x0后,称 为回归值,也称其为拟合值,预测值。这时是用函数预测出来的,不是真实观测值,它们之间的偏差通过 ε 补充。
和 会有n个,但 和 最后更新成为β0,β1,只会有一个值。
最小二乘法的目标是找到 β0 和 β1 的值,使得预测值 与实际观测值 yi 之间的差的平方和最小(即x是自变量的观测值,y是因变量的实际观测值,所以 x 坐标取值不变来计算y值的偏差)。这个平方和通常称为残差平方和(Residual Sum of Squares, RSS),其公式为:
此时,在最小二乘法中,对于找到使 Q(β0,β1) 最小的 β0 和 β1 的值,通常通过求解 Q(β0,β1) 关于 β0 和 β1 的偏导数,并令它们等于零来实现。解这个方程组将给出 β0 和 β1 的最小二乘估计值。
因此,当你看到 Q(β0,β1) 时,你可以理解为这是残差平方和的一种表示方式,它强调了残差平方和与模型参数之间的函数关系。
最小二乘法原理
从函数公式不难看出, Q(β0,β1) 是一个关于 β0 和 β1 的二次函数,并且这个二次函数是开口向上的(因为系数为正,即残差的平方总是非负的),所以 Q(β0,β1) 的最小值将出现在其全局最小值点处。
3.2.3 导数和极值定理
什么是导数?
导数(Derivative)是微积分中的一个核心概念,它描述了函数在某一点附近的变化率。
具体来说,对于函数 y=f(x),在点 x0 处的导数定义为:
这里,Δx 是一个很小的增量,它表示 x 从 x0 变化到 x0+Δx 时,函数值 f(x) 的变化量与 Δx 之比的极限。如果这个极限存在,那么我们就说函数 f(x) 在点 x0 处是可导的,并且称这个极限值为函数在点 x0 处的导数,记作 或 ,有时也简记为y′ 或 (当不特别指明 x0 时)。
导数的几何意义是函数图像在点 x0 处的切线斜率。换句话说,它表示了函数在该点附近的变化趋势和速率。如果导数大于0,则函数在该点附近是增函数;如果导数小于0,则函数在该点附近是减函数;如果导数等于0,则函数在该点可能取得 极值(最大?最小?拐点?)。
求导公式,当 a 是任意实数时,
用文字描述:提取次数,将它放在最前面做系数,然后再将次数减少1. 常数求导等于0.
什么叫做“函数 f(x) 在点 c 处可导”?
函数 f(x) 在点 c 处可导,意味着函数在该点附近的变化率可以用一个有限的数(即导数)来表示。这个数是通过求函数在 c 点处的极限来定义的,即:
如果上述极限存在且为有限数,则称函数 f(x) 在点 c 处可导,该极限值即为函数在点c处的导数,记作 f′(c)
可导必连续,连续不一定可导
函数在点 c 处可导的一个必要条件是函数在该点处连续。即,如果 f(x) 在点c处可导,则必须有 。但连续不一定可导,例如函数 f(x)=∣x∣ 在 x=0 处连续但不可导。
什么是偏导数?
求偏导是多元函数微分学中的内容。求偏导的过程与一元函数的求导过程类似,但需要注意的是,在求偏导时,我们要将其他变量视为常数。比如函数f(x,y),当我们对x求偏导时,所有包含y的项都将被视为常数项,其导数为0;同样地,当我们对y求偏导时,所有包含x的项也将被视为常数项。
在上一节中,由于 Q(β0,β1) 是一个二元函数,我们需要使用偏导数来找到其最小值点。具体来说,我们分别对 Q(β0,β1) 关于 β0 和 β1 求偏导,然后令这两个偏导数等于零,从而得到一个包含两个方程的方程组。
极值定理
在微积分中,一个函数在其定义域内的局部极值点(最大值或最小值点)可以通过求解该函数的一阶导数等于零的点来找到(前提是函数在该点处可导且二阶导数不为零或不存在但满足一定条件)。这是寻找函数极值点的标准方法。
3.2.4 均方误差-残差平方和
定义与计算:均方误差(MSE)是残差平方和的平均值(除以样本数量),而残差平方和(RSS)是残差平方的总和(不除以样本数量)。
应用场景:均方误差(MSE)通常用于评估模型的预测精度,而残差平方和(RSS)则更多地用于衡量模型的拟合程度。
3.2.5 对数及几何意义
如果 (其中 a>0,a ≠ 1,N >0),那么数 x 叫做以 a 为底 N 的对数,记作 。这里,a 被称为对数的底数,N 被称为真数。
对数的几何意义:考虑指数函数 (其中 a>0,a ≠ 1),这个函数在直角坐标系中是一条经过点 (0,1) 的曲线。对于这条曲线上的任意一点 P(x,y),其中,我们可以说点 P 的横坐标 x 是以 a 为底、y 为真数的对数,即 。
函数 (其中 a>0,a ≠ 1,b 是任意实数)的几何意义:这个函数其形状取决于底数 a 的值(当 a>1 时,曲线向上增长;当 0<a<1 时,曲线向下增长,但始终在 x 轴上方)。然后将 的图像 沿 y 轴方向平移 b 个单位。如果 b>0,则图像向上平移;如果 b<0,则图像向下平移。平移后的图像仍然是一个指数型增长的(或衰减的,取决于 a 的值)曲线,但它不再经过点 (0,1),而是经过点 (0,1+b)
3.2.6 单调可微函数
单调可微函数是指一个函数,它同时满足单调性和可微性两个条件
1.单调性:
- 如果对于函数f(x)的定义域内的任意两个数x1和x2(x1<x2),都有f(x1)≤f(x2)(或f(x1)≥f(x2)),则称函数f(x)在这个区间上是单调增(或单调减)的。
- 单调性描述了函数在整个定义域或某个子区间上是否总是保持增加或减少的趋势。
2.可微性:
- 如果函数f(x)在点x0处可导,即极限 存在,则称函数 f(x) 在点 x0处可微。
- 可微性描述了函数在某点附近是否可以用线性函数来近似,即函数在该点处是否“光滑”。
3.2.7 凸函数
对于定义在区间I上的函数f(x),如果对任意两点x1,x2∈I(且x1≠ x2)和任意实数λ∈(0,1),都有
f(λx1+(1−λ)x2) ≤ λf(x1) + (1−λ)f(x2),则称函数f(x)在区间I上是凸的。
为便于理解,取值λ=0.5, 上式等于
即:二次函数当a>0时,图像是一个开口向上的抛物线,即 U 型函数。此时,函数在整个实数域上是凸的。
3.3 对数几率回归
第4章 决策树
4.1 基本流程
决策 树基于“树结构”进行决策 :
- 有一个根结点,根结点包含样本全集
- 每个“内部结点”对应于一个属性上的测试test
- 每个“叶节点”对应于一个预测结果
学习过程:通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)
预测过程:将测试示例从根结果开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点。
决策 树是一个递归过程,有三种情况会导致递归返回,即停‘止条件。
(1)当前结点包含的样本全属于同一类别,无需要划分
(2)当前属性集为空,或是所有样本在所有属性上的聚会相同,无法划分
(3)当前结点包含的样本集合为空,不能划分
第5章 神经网络
第6章 支持向量机
第7章 贝叶斯分类器
第8章 集成学习
第9章 聚类
第10章 降维与度量学习
第11章 特征选择与稀疏学习
第12章 计算学习理论
第13章 半监督学习
第14章 概率图模型
第15章 规则学习
第16章 强化学习
附录
主要希腊符号表
大写 | 小写 | 字母名称 | 国际音标注音 | 中文注音 | LaTex公式 |
Α | α | alpha | /'ælfə/ | 阿耳法 | \alpha |
Β | β | beta | /'beɪtə/ | 贝塔 | \beta |
Γ | γ | gamma | /'gæmə/ | 伽马 | \gamma |
Δ | δ | delta | /'deltə/ | 德耳塔 | \delta |
Ε | ε | epsilon | /'epsɪlɒn/ | 艾普西隆 | \epsilon |
Ζ | ζ | zeta | /'zi:tə/ | 截塔 | \zeta |
Η | η | eta | /'i:tə/ | 艾塔 | \eta |
Θ | θ | theta | /'θi:tə/ | 西塔 | \theta |
Ι | ι | iota | /aɪ'əʊtə/ | 约塔 | \iota |
Κ | κ | kappa | /'kæpə/ | 卡帕 | \kappa |
∧ | λ | lambda | /'læmdə/ | 兰姆达 | \lambda |
Μ | μ | mu | /mju:/ | 缪 | \mu |
Ν | ν | nu | /nju:/ | 纽 | \nu |
Ξ | ξ | xi | /ˈzaɪ/ 或 /ˈksaɪ/ | 可塞 | \xi |
Ο | ο | omicron | /əuˈmaikrən/ | 奥密可戎 | 用小写o |
∏ | π | pi | /paɪ/ | 派 | \pi |
Ρ | ρ | rho | /rəʊ/ | 柔 | \rho |
∑ | σ | sigma | /'sɪɡmə/ | 西格马 | \sigma |
Τ | τ | tau | /tɔ:/ 或 /taʊ/ | \tau | |
Υ | υ | upsilon | /ˈipsilon/ | 衣普西隆 | \upsilon |
Φ | φ | phi | /faɪ/ | 斐 | \phi |
Χ | χ | chi | /kaɪ/ | 喜 | \chi |
Ψ | ψ | psi | /psaɪ/ | 普西 | \psi |
Ω | ω | omega | /'əʊmɪɡə/ | 欧米伽 | \omega |
主要公式含义
符号 | 含义 |
i | -1的平方根 |
f(x) | 函数f在自变量x处的值 |
sin(x) | 在自变量x处的正弦函数值 |
exp(x) | 在自变量x处的指数函数值,常被写作ex |
a^x | a的x次方;有理数x由反函数定义 |
ln x | exp x 的反函数 |
ax | 同 a^x |
logba | 以b为底a的对数; blogba = a |
cos x | 在自变量x处余弦函数的值 |
tan x | 其值等于 sin x/cos x |
cot x | 余切函数的值或 cos x/sin x |
sec x | 正割含数的值,其值等于 1/cos x |
csc x | 余割函数的值,其值等于 1/sin x |
asin x | y,正弦函数反函数在x处的值,即 x = sin y |
acos x | y,余弦函数反函数在x处的值,即 x = cos y |
atan x | y,正切函数反函数在x处的值,即 x = tan y |
acot x | y,余切函数反函数在x处的值,即 x = cot y |
asec x | y,正割函数反函数在x处的值,即 x = sec y |
acsc x | y,余割函数反函数在x处的值,即 x = csc y |
θ | 角度的一个标准符号,不注明均指弧度,尤其用于表示atan x/y,当x、y、z用于表示空间中的点时 |
i, j, k | 分别表示x、y、z方向上的单位向量 |
(a, b, c) | 以a、b、c为元素的向量 |
(a, b) | 以a、b为元素的向量 |
(a, b) | a、b向量的点积 |
a•b | a、b向量的点积 |
(a•b) | a、b向量的点积 |
|v| | 向量v的模 |
|x| | 数x的绝对值 |
Σ | 表示求和,通常是某项指数。下边界值写在其下部,上边界值写在其上部。如j从1到100的和可以表示成:。这表示 1 + 2 + … + n |
M | 表示一个矩阵或数列或其它 |
|v> | 列向量,即元素被写成列或可被看成k×1阶矩阵的向量 |
<v| | 被写成行或可被看成从1×k阶矩阵的向量 |
dx | 变量x的一个无穷小变化,dy, dz, dr等类似 |
ds | 长度的微小变化 |
ρ | 变量 (x2 + y2 + z2)1/2 或球面坐标系中到原点的距离 |
r | 变量 (x2 + y2)1/2 或三维空间或极坐标中到z轴的距离 |
|M| | 矩阵M的行列式,其值是矩阵的行和列决定的平行区域的面积或体积 |
||M|| | 矩阵M的行列式的值,为一个面积、体积或超体积 |
det M | M的行列式 |
M-1 | 矩阵M的逆矩阵 |
v×w | 向量v和w的向量积或叉积 |
θvw | 向量v和w之间的夹角 |
A•B×C | 标量三重积,以A、B、C为列的矩阵的行列式 |
uw | 在向量w方向上的单位向量,即 w/|w| |
df | 函数f的微小变化,足够小以至适合于所有相关函数的线性近似 |
df/dx | f关于x的导数,同时也是f的线性近似斜率 |
f ' | 函数f关于相应自变量的导数,自变量通常为x |
∂f/∂x | y、z固定时f关于x的偏导数。通常f关于某变量q的偏导数为当其它几个变量固定时df与dq的比值。任何可能导致变量混淆的地方都应明确地表述 |
(∂f/∂x)|r,z | 保持r和z不变时,f关于x的偏导数 |
grad f | 元素分别为f关于x、y、z偏导数 [(∂f/∂x), (∂f/∂y), (∂f/∂z)] 或 (∂f/∂x)i + (∂f/∂y)j + (∂f/∂z)k; 的向量场,称为f的梯度 |
∇ | 向量算子(∂/∂x)i + (∂/∂x)j + (∂/∂x)k, 读作 "del" |
∇f | f的梯度;它和 uw 的点积为f在w方向上的方向导数 |
∇•w | 向量场w的散度,为向量算子∇ 同向量 w的点积, 或 (∂wx /∂x) + (∂wy /∂y) + (∂wz /∂z) |
curl w | 向量算子 ∇ 同向量 w 的叉积 |
∇×w | w的旋度,其元素为[(∂fz /∂y) - (∂fy /∂z), (∂fx /∂z) - (∂fz /∂x), (∂fy /∂x) - (∂fx /∂y)] |
∇•∇ | 拉普拉斯微分算子: (∂2/∂x2) + (∂/∂y2) + (∂/∂z2) |
f "(x) | f关于x的二阶导数,f '(x)的导数 |
d2f/dx2 | f关于x的二阶导数 |
f(2)(x) | 同样也是f关于x的二阶导数 |
f(k)(x) | f关于x的第k阶导数,f(k-1) (x)的导数 |
T | 曲线切线方向上的单位向量,如果曲线可以描述成 r(t), 则T = (dr/dt)/|dr/dt| |
ds | 沿曲线方向距离的导数 |
κ | 曲线的曲率,单位切线向量相对曲线距离的导数的值:|dT/ds| |
N | dT/ds投影方向单位向量,垂直于T |
B | 平面T和N的单位法向量,即曲率的平面 |
τ | 曲线的扭率: |dB/ds| |
g | 重力常数 |
F | 力学中力的标准符号 |
k | 弹簧的弹簧常数 |
pi | 第i个物体的动量 |
H | 物理系统的哈密尔敦函数,即位置和动量表示的能量 |
{Q, H} | Q, H的泊松括号 |
L(d) | 相等子区间大小为d,每个子区间左端点的值为 f的黎曼和 |
R(d) | 相等子区间大小为d,每个子区间右端点的值为 f的黎曼和 |
M(d) | 相等子区间大小为d,每个子区间上的最大值为 f的黎曼和 |
m(d) | 相等子区间大小为d,每个子区间上的最小值为 f的黎曼和 |
——————————————————————
原文链接:https://blog.csdn.net/czj_com/article/details/124682473
公式输入符号
≈≡≠=≤≥<>≮≯∷±+-×÷/∫∮∝∞∧∨∑∏∪∩∈∵∴⊥‖∠⌒⊙≌∽√
+: plus(positive正的)
-: minus(negative负的)
*: multiplied by
÷: divided by
=: be equal to
≈: be approximately equal to
(): round brackets(parenthess)
[]: square brackets
{}: braces
∵: because
∴: therefore
≤: less than or equal to
≥: greater than or equal to
∞: infinity
LOGnX: logx to the base n
xn: the nth power of x
f(x): the function of x
dx: diffrencial of x
x+y: x plus y
(a+b): bracket a plus b bracket closed
a=b: a equals b
a≠b: a isn’t equal to b
a>b : a is greater than b
a>>b: a is much greater than b
a≥b: a is greater than or equal to b
x→∞: approches infinity
x2: x square
x3: x cube
√ ̄x: the square root of x
3√ ̄x: the cube root of x
3‰: three peimill
n∑i=1xi: the summation of x where x goes from 1to n
n∏i=1xi: the product of x sub i where igoes from 1to n
∫ab: integral betweens a and b
数学符号(理科符号)——运算符号
1.基本符号:+ - × ÷(/)
2.分数号:/
3.正负号:±
4.相似全等:∽ ≌
5.因为所以:∵ ∴
6.判断类:= ≠ < ≮(不小于) > ≯(不大于)
7.集合类:∈(属于) ∪(并集) ∩(交集)
8.求和符号:∑
9.n次方符号:¹(一次方) ²(平方) ³(立方) ⁴(4次方) ⁿ(n次方)
10.下角标:₁ ₂ ₃ ₄
(如:A₁B₂C₃D₄ 效果如何?)
11.或与非的"非":¬
12.导数符号(备注符号):′ 〃
13.度:° ℃
14.任意:∀
15.推出号:⇒
16.等价号:⇔
17.包含被包含:⊆ ⊇ ⊂ ⊃
18.导数:∫ ∬
19.箭头类:↗ ↙ ↖ ↘ ↑ ↓ ↔ ↕ ↑ ↓ → ←
20.绝对值:|
21.弧:⌒
22.圆:⊙ 11.或与非的"非":¬
12.导数符号(备注符号):′ 〃
13.度:° ℃
14.任意:∀
15.推出号:⇒
16.等价号:⇔
17.包含被包含:⊆ ⊇ ⊂ ⊃
18.导数:∫ ∬
19.箭头类:↗ ↙ ↖ ↘ ↑ ↓ ↔ ↕ ↑ ↓ → ←
20.绝对值:|
21.弧:⌒
22.圆:⊙
α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ σ τ υ φ χ ψ ω
Α Β Γ Δ Ε Ζ Η Θ Ι Κ ∧ Μ Ν Ξ Ο ∏ Ρ ∑ Τ Υ Φ Χ Ψ Ω
а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ ъ
ы ь э ю я
А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ
Ы Ь Э Ю Я
——————————————————————
原文链接:https://blog.csdn.net/weixin_47312141/article/details/107744145