IIS算法数学理论 背景 IIS算法主要用来计算参数估计的maximum-likelihood。 这篇文章主要是解读Adam Berger的算法( IIS Algorithm)。首先这里采用的是概率模型。 其中 参数解释: :表示再输入文档是x的情况下,输出label为y的概率。(在Adam的文章中这个是表示language modeling的一个句子概率问题,但是这里用于文本分类)。y就是你的模型中会包含有多少个的label,然后去判断你输入的文档属于每个label的概率,当然概率最大的就会判断哪一个。 :这个其实就是我们用IIS算法训练出来的权重,i的范围就是1到n,n就是你的所有training dataset 里面的feature总数。 :就是feature function了。我这里feature function的定义就是,如果在一篇文章里 word[i] 属于 document x并且 word[i] 也属于label y就为1,否则为0. :是用在标准化的,使得概率在0到1之间。