05_机器学习相关笔记——特征工程（5）

最新推荐文章于 2024-01-12 20:40:17 发布

等风来随风飘

最新推荐文章于 2024-01-12 20:40:17 发布

阅读量255

点赞数

分类专栏：百面机器学习阅读笔记文章标签：人工智能

本文链接：https://blog.csdn.net/qq_29787929/article/details/128630882

版权

百面机器学习阅读笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

05_机器学习相关笔记——特征工程（5）

Word2Vec输出层N维表示词汇表中有N个单词，通过Softmax激活函数计算每个单词的生成概率，并最终获得概率最大的单词。
LDA（隐狄利克雷模型），利用文档中单词的共现关系来对单词按主题聚类，可以理解为”文档-单词“矩阵分解，得到”文档-主题“和”主题-单词“两个概率分布。
主题模型是一种基于概率图模型的生成式模型，其似然函数可以写成若干条件概率连乘的形式，其中包括需要推测的隐含变量（主题）。
词嵌入模型一般表达为神经网络的形式，似然函数定义在网络的输出之上，需要通过学习网络的权重以得到单词的稠密向量表示。
一个模型所能提供的信息一般来源于两个方面：一是训练数据中蕴含的信息；二是在模型的形成过程中（包括构造、学习、推理等），人们提供的先验信息。
训练数据不足时模型很难从原始数据中获得足够的信息，要想保证模型的效果就需要更多先验信息。
先验信息，一作用在模型上，例如让模型采用特定的内在结构、条件假设或添加提前一些约束条件；二可以直接施加在数据集上，即根据特定的先验假设去调整、变换或扩展训练数据，让其展现更多的、更有用的信息，以利于后续模型的训练和学习。
在图像任务中，训练数据不足会导致模型训练过拟合，即在训练机上效果较好，而在测试集上的泛化效果不佳。
防止过拟合的方法一：基于模型的方法，主要采用降低过拟合风险的措施，包括简化模型（如将非线性模型简化为线性模型）、集成学习、Dropout超参数等。
防止过拟合的方法二：基于数据的方法，主要通过数据扩充，即根据一些先验知识，在保持特定信息的前提下，对原始数据进行呢适当变换以达到扩充数据集的效果。
注：笔记内容来源于《百面机器学习》