每日一语:
- 正确的判断来自于经验,而经验来自于错误的判断
一、基础知识:
- 损失函数:
- 0 1 损失函数 :
- 平方损失函数://平方损失函数一般不适用于分类问题
- 交叉熵损失函数:(负对数似然函数)
- 一般用于 分类问题
- Hinge损失函数
- 二分类:
- 问题的类别标签 𝑦 只有两种取值,通常可 以设为 {+1, −1} 或 {0, 1}.在二分类问题中,常用正例(Positive Sample)和负例 (Negative Sample)来分别表示属于类别+1和−1的样本.
- 多分类:
- 问题是指分类的类别数 𝐶 大于 2.多分 类一般需要多个线性判别函数,但设计这些判别函数有很多种方式
- Logistic 回归:
- 是一种常用的处理二分类问题的 线性模型.在本节中,我们采用𝑦 ∈ {0, 1}以符合Logistic回归的描述习惯.
- Softmax 回归:
- 也称为多项(Multinomial)或多类 (Multi-Class)的Logistic回归,是Logistic回归在多分类问题上的推广
- 要注意的是,Softmax回归中使用的𝐶 个权重向量是冗余的,即对所有的 权重向量都减去一个同样的向量 𝒗,不改变其输出结果.因此,Softmax 回归往往需要使用正则化来约束其参数.此外,我们还可以利用这个特 性来避免计算Softmax函数时在数值计算上溢出问题.
二、项目简介:
三、特征提取:
- 词袋特征(Bag-of -word)
- 词袋模型即把句子拆解成一个一个单词,存在于句子的单词 (不区分大小写),则对应的向量位置上的数字为1,反之为0,通过这种方式,可以把一个句子变成一个由数字表示的0-1向量。
- N元特征(N-gram)
N元特征相较于词袋模型,则考虑了词序。
N元特征与词袋模型最大的不同就是,词袋模型仅考虑了单词存在与否,而N元特征考虑了词组存在与否。例如,当N=2时,I love you 不再看作是 I, love, you 这三个单词,而是 I love, love you 这两个词组。
通常来说,使用N元特征时,会一并使用1, 2, …, N-1元特征
四、梯度下降:
方法
注释
Batch
优点:梯度准确 ; 缺点:每次计算复杂度为O(N),时间开销大 Shuffle
优点:每次计算简单 ; 缺点: 梯度估计可能不准确,仅用到了一个样本
Mini-Batch
综合了Batch和Shuffle的策略,梯度较为准确,计算时间复杂度也较低
- 学习率:
学习率相当于是步长。
小的步长使梯度下降缓慢,可能需要很久才到达最优点。
而大的步长虽然可能使函数“一步到位”降到最优值(最小值)附近,但是有可能会使函数在最小值附近剧烈震荡,导致不收敛,更严重地可能会使函数“跳”到一个较差的局部最小值,甚至越跳越远,永不收敛。
因此选取一个合适的学习率非常重要。
五、结语:
本来想做的发现自己对机器学习一窍不通,就看了看知识点,我直接学的深度学习,机器学习没学,不会写,抱歉