翟俊武-CSDN博客

原创 EM算法详细推导及讲解

极大似然估计是一种应用很广泛的参数估计方法。例如我手头有一些东北人的身高的数据，又知道身高的概率模型是高斯分布，那么利用极大化似然函数的方法可以估计出高斯分布的两个参数，均值和方差。这个方法基本上所有概率课本上都会讲，我这就不多说了，不清楚的请百度。　　然而现在我面临的是这种情况，我手上的数据是四川人和东北人的身高合集，然而对于其中具体的每一个数据，并没有标定出它来自“东北人”还是“四川人”，我想如果把这个数据集的概率密度画出来，大约是这个样子：　　其实这个双峰的概率密度函数是有模型的，称作高斯混合模

2020-11-30 17:15:42 981

原创自然语言处理之N-Gram模型

自然语言处理之N-Gram模型 1.什么是语言模型语言模型就是这样一个模型：对于任意的词序列，它能够计算出这个序列是一句话的概率。或者说语言模型能预测单词序列的下一个词是什么。 2. 什么是N-Gram模型 N-Gram是一种基于统计语言模型的算法。其基本思想是将文本里面的内容按照字节及逆行大小为N的滑动窗口曹祖，形成了长度为N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种g

2020-11-23 16:34:39 1048

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 EM算法详细推导及讲解

原创 自然语言处理之N-Gram模型

空空如也

空空如也

原创自然语言处理之N-Gram模型