CV&NLP基础3之逻辑回归

Waldocsdn

已于 2022-07-29 21:40:09 修改

阅读量390

点赞数 1

分类专栏： CV&NLP学习 # ———基础入门系列文章标签：自然语言处理逻辑回归机器学习

于 2022-07-27 21:55:47 首次发布

本文链接：https://blog.csdn.net/Waldocsdn/article/details/125938383

版权

CV&NLP学习同时被 2 个专栏收录

20 篇文章 3 订阅

订阅专栏

———基础入门系列

16 篇文章 0 订阅

订阅专栏

文章目录

监督学习(Supervised Learning)
无监督学习(Unsupervised Learning)
简述机器学习的过程
监督学习、无监督学习区别

机器学习主要有: 监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、强化学习(Reinforcement Learning, 又叫对比学习)

监督学习(Supervised Learning)

其实就是你先告诉机器这个东西是什么，需要前期给大量数据做标注

分类问题(典型的监督学习)

以CV领域的图片分类问题为例

有十张图片，其中第3、4、5张是小狗图片，其余都是小猫图片，计算机怎么判别哪些是小狗图片呢？那么事先可以给计算机100万张狗的图片(训练数据集)，再给计算机新的一张狗的图片时，让计算机去判断这张新图片是否是狗，分辨的依据就是看这张图片有没有跟那100万张图片有相似的地方。
怎么去判断是否相似呢？这就涉及到重要知识点“相似度计算”、“特征工程”。比如，对于一张图片，可以把图片看作100*100的矩阵(姑且认为是正方形的图片)，每个点都是一个不同的数字，这些数字就是图片的“特征”。这些数字就是计算机表达事物的一种方式，也可以叫“特征”。这种方式很像自然界用RGB表示颜色(R是red，G是green，B是blue)，R、G、B三个值不同就会有不同的颜色，换句话说，所有颜色都可以用R、G、B三个值(特征)表示。通过分析颜色的用R、G、B三个值(特征)来判断颜色是否相似。
特征就是计算机用于描述一件东西或者是一件事儿，那么这里计算机要干的事情就是通过100万张狗的图片去学习狗的特征，获取能够表达狗的特征。有了特征后，怎么去做新图片的“相似度计算”呢？提取新图片的特征去与训练数据集的特征计算相似度，可运用“欧氏距离”、“余弦相似度”来判断，通过这两种方式可以计算出用数字表示的特征之间的相似度，相似度越近说明是同一类东西的概率越高。

以NLP领域的判断垃圾邮件为例

若此时邮箱里已有100封邮件，人工已将这些邮件标注为垃圾邮件或非垃圾邮件，也就是人工已经把是否是垃圾邮件告诉给了计算机。接着，让计算机学习一下，垃圾邮件有哪些特征；非垃圾邮件有哪些特征。当有新邮件来时，计算机得出新邮件的特征(往往是数字表达)，通过计算相似度看看“新邮件”与哪一封“已知邮件”的特征更接近。“表示学习”这门学科研究如果将描述事物让计算机更好地理解。

房价预测(理解回归问题)

在这里插入图片描述

上面图中，x轴是房子面积，y轴是房价，只有这两个特征。从图1中可以观察出，蓝色点呈现曲线分布现象。
什么叫“回归”呢？可以把“回归”理解为“预测”，此例中我们就希望找到“一根线(函数、模型)”来预测后续房价的走势，这是将“离散”转化为“连续”的过程，也可以称为“非线性”转化为“线性”。有了这根线，我们可以从面积推测价格，也可以反之从价格推测面积。
那么，为什么图2中有两根线(函数)呢？这两根线是有优劣之分的，这就跟神经网络的参数优化有关了。这些线(函数)可以称之为“模型”，这个例子中，我们要训练出一个模型，其实就是训练出这根线(函数)。
最简单的模型就是“线性回归”，如: y=ax+b; y=ax²+bx+c。直线、曲线都算线性回归，那么选择哪种作为模型好呢？想要得到模型y=ax+b，只需要有a、b这两个参数；而得到模型y=ax²+bx+c，需要a、b、c三个参数。具体使用哪个模型更好，需要根据历史经验作出假设。

简单模型: 参数少的模型；复杂模型: 参数多的模型
注: 以后学习的Bert模型有上千万个参数。

与神经网络都有关系的小点

模型选择应该考虑问题本身的复杂程度，以防止过拟合，导致模型泛化能力差。简单问题选择简单模型，复杂问题选择复杂模型。

模型选择应该考虑问题本身的复杂程度用于CVNLP基础文章3

接着刚才的房价问题，x代表面积，y代表价格，我们需要找到一个映射函数f()，来通过x推测y (x—>y)，也就是f(x)=y。f(x)就是需要训练出来的模型。
在这里插入图片描述
补充:

Linear Equation

在这里插入图片描述

Noise

在这里插入图片描述

Gradient Descent初步

清晰版: 链接: https://pan.baidu.com/s/19LWEk31RAnTMgBsJ17lSVA?pwd=1234 提取码: 1234

GradientDescent简述用于NLP:CV基础文章3

关于nlp/cv的算法创新论文，都要费尽心机的去解释他的loss function创新在哪里，loss function就是每个点的损失累加起来的总损失，我们要努力降低这个总损失。

在这里插入图片描述

凸优化中的凸函数(convex function)指的是可导并且能够找到极小值的函数

GradientDescent简述2用于NLPCV基础文章3

无监督学习(Unsupervised Learning)

无监督学习LHY

在这里插入图片描述

Word embedding(词嵌入): 将一句句子进行分词后，将每个词汇转换为数字表示，比如把词汇转换为100*100的矩阵。
无监督学习可以将一个词汇转换为数字特征；并且可以发现词与词之间的关系，称为semantical context(语义上下文)，比如发现Italy与Rome有关系、France与Paris有关系、Germany与Berlin有关系，而且这三个关系是相同的，这与NLP中的“知识图谱”、“实体识别”、“关系抽取”领域有关。

在这里插入图片描述

Kmeans简述用于CVNLP基础文章3

简述机器学习的过程

在这里插入图片描述

监督学习、无监督学习区别

监督学习一定是有x有y(label、标签)的，y是根据x来定的，不断学习x和label(就是y)之间的关系，什么样的x对应什么样的label，比如“分类”问题处理数据会得出相应的label；
无监督学习只有x没有y，只在x之间找寻所给数据中的规律(只研究x本身有什么特点)，比如“聚类”只是将x分成几堆