基于复旦邱锡鹏老师作业一：（不全）

小李小于

已于 2022-01-19 20:10:18 修改

阅读量1.2k

点赞数 2

分类专栏： NLP 文章标签： p2p linq sql

于 2022-01-19 20:05:54 首次发布

本文链接：https://blog.csdn.net/qq_56350439/article/details/122583236

版权

NLP 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

每日一语:

正确的判断来自于经验，而经验来自于错误的判断

一、基础知识：

损失函数：
0 1 损失函数：
平方损失函数：//平方损失函数一般不适用于分类问题
交叉熵损失函数：(负对数似然函数)
一般用于分类问题
Hinge损失函数
二分类：
问题的类别标签 𝑦 只有两种取值，通常可以设为 {+1, −1} 或 {0, 1}．在二分类问题中，常用正例（Positive Sample）和负例（Negative Sample）来分别表示属于类别+1和−1的样本．
多分类：
问题是指分类的类别数 𝐶 大于 2．多分类一般需要多个线性判别函数，但设计这些判别函数有很多种方式
Logistic 回归：
是一种常用的处理二分类问题的线性模型．在本节中，我们采用𝑦 ∈ {0, 1}以符合Logistic回归的描述习惯．
Softmax 回归：
也称为多项（Multinomial）或多类（Multi-Class）的Logistic回归，是Logistic回归在多分类问题上的推广
要注意的是，Softmax回归中使用的𝐶 个权重向量是冗余的，即对所有的权重向量都减去一个同样的向量 𝒗，不改变其输出结果．因此，Softmax 回归往往需要使用正则化来约束其参数．此外，我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题．

二、项目简介：

本次的NLP（Natural Language Processing）任务是利用机器学习中的softmax回归（softmax regression）来对文本的情感进行分类。
数据集传送门
具体流程：
数据输入（英文句子）→特征提取（数字化数据）→最优化求解（求解softmax回归模型）→结果输出（情感类别）

三、特征提取：

词袋特征（Bag-of -word）
词袋模型即把句子拆解成一个一个单词，存在于句子的单词 (不区分大小写)，则对应的向量位置上的数字为1，反之为0，通过这种方式，可以把一个句子变成一个由数字表示的0-1向量。
N元特征（N-gram）

N元特征相较于词袋模型，则考虑了词序。

N元特征与词袋模型最大的不同就是，词袋模型仅考虑了单词存在与否，而N元特征考虑了词组存在与否。例如，当N=2时，I love you 不再看作是 I, love, you 这三个单词，而是 I love, love you 这两个词组。

通常来说，使用N元特征时，会一并使用1, 2, …, N-1元特征

四、梯度下降：

方法

注释

Batch
优点：梯度准确；缺点：每次计算复杂度为O(N)，时间开销大

Shuffle

优点：每次计算简单；缺点：梯度估计可能不准确，仅用到了一个样本

Mini-Batch

综合了Batch和Shuffle的策略，梯度较为准确，计算时间复杂度也较低

学习率：

学习率相当于是步长。

小的步长使梯度下降缓慢，可能需要很久才到达最优点。

而大的步长虽然可能使函数“一步到位”降到最优值（最小值）附近，但是有可能会使函数在最小值附近剧烈震荡，导致不收敛，更严重地可能会使函数“跳”到一个较差的局部最小值，甚至越跳越远，永不收敛。

因此选取一个合适的学习率非常重要。

方法	注释
Batch	优点：梯度准确；缺点：每次计算复杂度为O(N)，时间开销大
Shuffle	优点：每次计算简单；缺点：梯度估计可能不准确，仅用到了一个样本
Mini-Batch	综合了Batch和Shuffle的策略，梯度较为准确，计算时间复杂度也较低

五、结语：

本来想做的发现自己对机器学习一窍不通，就看了看知识点，我直接学的深度学习，机器学习没学，不会写，抱歉

小李小于

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于复旦邱锡鹏老师作业一：（不全）

每日一语:正确的判断来自于经验，而经验来自于错误的判断一、基础知识：损失函数： 0 1 损失函数：平方损失函数：//平方损失函数一般不适用于分类问题交叉熵损失函数：(负对数似然函数) 一般用于分类问题 Hinge损失函数二分类：问题的类别标签 ???? 只有两种取值，通常可以设为 {+1, −1} 或 {0, 1}．在二分类问题中，常用正例（Positive Sample）和负例（Negative Sample）来分别表示属于类别+..
复制链接

扫一扫