hypothesis:假设
Cost Function:代价函数
parameters:参数
Gradient Descent:梯度下降算法
local minimum:局部最小值。
global minimum:全局最小值
TF-IDF(Term Frequency-Inverse Document Frequency,词频-倒排文档频次)是信息检索中衡量一个词语重要程度的统计指标。
算法名词解释
HMM:隐含马尔柯夫模型(Hidden Markov Model);
CRF:条件随机场Conditional Random Field)
OOV: out-of-vocabulary不在词库的意思
TF-IDF:(Term Frequency-Inverse Document Frequency,词频-倒排文档频次)。
CBOW:(Continuous Bag of Words Model)是一种基于窗口的语言模型。
GRU:门控循环单元(gated recurrent unit,GRU)是LSTM网络的一种效果很好的变体
LSA:(Latent semantic analysis) 潜在语义分析
LDA:(Latent Dirichlet allocation) 隐含狄利克雷分布
LDA:基于主题模型的检索方法
CBOW(Continuous Bag of Words Model)是一种基于窗口的语言模型。Word2vec主要有Continuous Bag-of-Words(CBoW) Continuous Skip-gram(Skip-gram)两种模型。
HRED: < The Hierarchical Recurrent Encoder-Decoder model) }4s]是一种典型的
Seq2Seq模型,其将问答分解成句子和单词两层,问答看成句子的序列,句子看
成单词的序列。因此HRED由encoder RNN, context RNN和decoder RNN共三
层循环神经网络构成。每一轮的句子被encoder RNN编码成一个实值向量表示,
KL 散度:Kullback-Leibler Divergence
交叉熵(cross entropy error)
同义词词典(thesaurus)
奇异值分解(Singular Value Decomposition,SVD)。
ReLU(Rectified Linear Unit)函数,修正性线性单元。
SGD:随机梯度下降法(stochastic gradient descent)。
在前几章中,为了找到最优参数,我们将参数的梯度(导数)作为了线索。
使用参数的梯度,沿梯度方向更新参数,并重复这个步骤多次,从而逐渐靠
近最优参数,这个过程称为随机梯度下降法(stochastic gradient descent),
简称SGD
BP: Backpropagation 反向传播
Batch Normalization:批量标准化
CNN:卷积神经网络(Convolutional Neural Network,CNN)
RNN(Recurrent Neural Network,循环神经网络)便应运而生
FCN(Fully Convolutional Network)
强化学习(reinforcement learning)
FCN的字面意思是“ 全部由卷积层构成的网络