05_机器学习相关笔记——特征工程(5)
- Word2Vec输出层N维表示词汇表中有N个单词,通过Softmax激活函数计算每个单词的生成概率,并最终获得概率最大的单词。
- LDA(隐狄利克雷模型),利用文档中单词的共现关系来对单词按主题聚类,可以理解为”文档-单词“矩阵分解,得到”文档-主题“和”主题-单词“两个概率分布。
- 主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(主题)。
- 词嵌入模型一般表达为神经网络的形式,似然函数定义在网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量表示。
- 一个模型所能提供的信息一般来源于两个方面:一是训练数据中蕴含的信息;二是在模型的形成过程中(包括构造、学习、推理等),人们提供的先验信息。
- 训练数据不足时模型很难从原始数据中获得足够的信息,要想保证模型的效果就需要更多先验信息。
- 先验信息,一作用在模型上,例如让模型采用特定的内在结构、条件假设或添加提前一些约束条件;二可以直接施加在数据集上,即根据特定的先验假设去调整、变换或扩展训练数据,让其展现更多的、更有用的信息,以利于后续模型的训练和学习。
- 在图像任务中,训练数据不足会导致模型训练过拟合,即在训练机上效果较好,而在测试集上的泛化效果不佳。
- 防止过拟合的方法一:基于模型的方法,主要采用降低过拟合风险的措施,包括简化模型(如将非线性模型简化为线性模型)、集成学习、Dropout超参数等。
- 防止过拟合的方法二:基于数据的方法,主要通过数据扩充,即根据一些先验知识,在保持特定信息的前提下,对原始数据进行呢适当变换以达到扩充数据集的效果。
注:笔记内容来源于《百面机器学习》