ADL100

最新推荐文章于 2024-09-11 08:06:20 发布

阅读量207

点赞数

分类专栏：智能问答文章标签： CCF ADL100

本文链接：https://blog.csdn.net/qq_39161216/article/details/94219232

版权

智能问答专栏收录该内容

5 篇文章 0 订阅

订阅专栏

tracking
transfomer
众包
EM算法

CopyNet 是在 Seq2Seq + Attention 的基础上，引入了拷贝机制，对某些任务会有所擅长

BLEU

多层感知器(Multi-Layer Perceptron，MLP)也叫人工神经网络(Artificial Neural Network，ANN)，除了输入输出层，它中间可以有多个隐层。最简单的MLP需要有一层隐层，即输入层、隐层和输出层才能称为一个简单的神经网络。习惯原因我之后会称为神经网络。通俗而言，神经网络是仿生物神经网络而来的一种技术，通过连接多个特征值，经过线性和非线性的组合，最终达到一个目标，这个目标可以是识别这个图片是不是一只猫，是不是一条狗或者属于哪个分布

SMN
https://www.jianshu.com/p/5e6dd0a16746
在这里插入图片描述

stacking
https://blog.csdn.net/maqunfi/article/details/82220115
https://cloud.tencent.com/developer/news/229098

BERT是一种预训练语言表示的方法，在大量文本语料（维基百科）上训练了一个通用的“语言理解”模型，然后用这个模型去执行想做的NLP任务

自然语言处理中的Encoder-Decoder模型，基本Sequence to Sequence模型
https://blog.csdn.net/xbinworld/article/details/54605408

ELBO
https://www.cnblogs.com/yifdu25/p/8278986.html

集束搜索使用beam size参数来限制在每一步保留下来的可能性词的数量。集束搜索是在测试阶段为了获得更好准确性而采取的一种策略，在训练阶段无需使用
不能保证一定能够找到全局最优解，因为考虑到搜索空间太大，而采用一个相对的较优解

FP-growth(Frequent Pattern Tree, 频繁模式树),是韩家炜老师提出的挖掘频繁项集的方法，是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或频繁项对，即常在一块出现的元素项的集合FP树。
FP-growth算法比Apriori算法效率更高，在整个算法执行过程中，只需遍历数据集2次，就能够完成频繁模式发现，其发现频繁项集的基本过程如下：
（1）构建FP树
（2）从FP树中挖掘频繁项集

FP-growth的一般流程如下：
1：先扫描一遍数据集，得到频繁项为1的项目集，定义最小支持度（项目出现最少次数），删除那些小于最小支持度的项目，然后将原始数据集中的条目按项目集中降序进行排列。
2：第二次扫描，创建项头表（从上往下降序），以及FP树。
3：对于每个项目（可以按照从下往上的顺序）找到其条件模式基（CPB，conditional patten base）,递归调用树结构，删除小于最小支持度的项。如果最终呈现单一路径的树结构，则直接列举所有组合；非单一路径的则继续调用树结构，直到形成单一路径即可。

BM25源于概率相关模型，而非向量空间模型
BM25同样使用词频，逆文档频率以及字段长度归一化，但是每个因子的定义都有细微差别
（###TF-IDF没有考虑词频上限的问题，因为高频停用词已经被移除了）
k1
这个参数控制着词频结果在词频饱和度中的上升速度。默认值为 1.2 。值越小饱和度变化越快，值越大饱和度变化越慢。
b
这个参数控制着字段长归一值所起的作用， 0.0 会禁用归一化， 1.0 会启用完全归一化。默认值为 0.75 。

在 NLP 领域，使用词向量将一个变长文本表示成一个固定向量的常用方法有：1）以词向量为输入，使用一个复杂的神经网络（CNN，RNN 等）来进行文本表示学习；2）在词向量的基础上，直接简单的使用按元素求均值或者相加的简单方法来表示。

SWEM
https://blog.csdn.net/App_12062011/article/details/88655589

BLEU
https://blog.csdn.net/icurious/article/details/79532949