数据挖掘基础算法

最新推荐文章于 2022-01-07 14:28:14 发布

china1000

最新推荐文章于 2022-01-07 14:28:14 发布

阅读量1k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/china1000/article/details/12856553

版权

数据挖掘专栏收录该内容

32 篇文章 7 订阅

订阅专栏

1 SVD矩阵分解算法。

2 SVD++算法。

3 PageRank算法。

4. HMM模型：

1）马尔可夫模型：

马尔科夫过程指当前状态只与前n个状态有关。这个被称作n阶马尔可夫模型。最简单的就是n=1阶的模型，就是只与当前状态有关。（这里要注意它和确定性生成模式的区别，这里我们得到的是一个概率模型）。下图是所有可能的天气转变情况：

1）隐马尔科夫模型：

阿黄是大家敬爱的警官，他性格开朗、身体健壮，是大家心中健康的典范。现在我们通过贯彻发现，控制阿黄的情绪的有一些侍神。每位侍神控制阿黄时，阿黄以一定的概率表现出各种情绪状态。

如情绪状态（观察状态）：放声大笑、愁眉不展、老泪纵横、勃然大怒

侍神状态：修罗王、阿修罗、罗刹神。

每种侍神状态以一定的概率转换为下一个侍神状态，并且我们可以通过概率模型计算转换的规律性，它们的转化矩阵为：

0.5 0.25 0.25

0.375 0.125 0.375

0.125 0.675 0.375

每位侍神主宰阿黄，他表现的状态也有一定的概率性：

0.60 0.20 0.15 0.05

0.25 0.25 0.25 0.25

0.05 0.10 0.35 0.50

同时由于每天的状态也取决于前一天的状态，因此我们也有侍神第一次出现的概率：

修罗王阿修罗罗刹神

0.63 0.17 0.20

至此，我们已经研究得到了阿黄情绪变化的所有信息：侍神状态和情绪状态；三种关系：侍神转换关系，侍神与情绪关系，侍神初始状态。

初始状态矩阵：Ui=( 0.64 0.17 0.20)

状态转移矩阵：

0.5 0.25 0.25

0.375 0.125 0.375

0.125 0.675 0.375

两态混合矩阵：

0.60 0.20 0.15 0.05

0.25 0.25 0.25 0.25

0.05 0.10 0.35 0.50

一：计算观察状态的概率：

知道这些之后，我们可以估计“放声大笑”-“老泪纵横”-“勃然大怒”出现的概率。

因为他们的转换关系可以是（修罗王，阿修罗，罗刹神）^3=27

因此这样计算是指数级，几乎是灾难性的。

当然在计算机进行计算时，可以利用递归化简化计算，降低复杂度：

第一天：放声大笑

(0.63 * 0.6) = 0.3780002

(0.17 * 0.25) = 0.0425

(0.2 * 0.05) = 0.010000001

第二天：老泪纵横

(((0.37800002*0.5) + (0.0425*0.375) + (0.010000001*0.375))*0.15)=0.03092813

(((0.37800002*0.25) + (0.0425*0.125) + (0.010000001*0.675)) * 0.25) = 0.026640628

(((0.37800002*0.25) + (0.0425*0.375) + (0.010000001*0.375)) * 0.35) = 0.039965626

第三天：勃然大怒
(((0.03092813*0.5) + (0.026640628*0.375) + (0.039965626*0.125)) * 0.05) = 0.0015225002
(((0.03092813*0.25) + (0.026640628*0.125) + (0.039965626*0.675)) * 0.25) = 0.009509727
(((0.03092813*0.25) + (0.026640628*0.375) + (0.039965626*0.375)) * 0.5) = 0.01635469

所以，最终所有可能加起来，“放声大笑－老泪纵横－勃然大怒”的概率为

0.0015225002＋0.009509727＋0.01635469= 0.027386917

(((0.37800002*0.25) + (0.0425*0.125) + (0.010000001*0.675)) * 0.25) = 0.026640628

(((0.37800002*0.25) + (0.0425*0.375) + (0.010000001*0.375)) * 0.35) = 0.039965626

第三天：勃然大怒

(((0.03092813*0.5) + (0.026640628*0.375) + (0.039965626*0.125)) * 0.05) = 0.0015225002

(((0.03092813*0.25) + (0.026640628*0.125) + (0.039965626*0.675)) * 0.25) = 0.009509727

(((0.03092813*0.25) + (0.026640628*0.375) + (0.039965626*0.375)) * 0.5) = 0.01635469

所以，最终所有可能加起来，“放声大笑－老泪纵横－勃然大怒”的概率为

0.0015225002＋0.009509727＋0.01635469= 0.027386917

二：由观察状态推测最大可能隐状态：

比如某天阿黄，不幸的出现了“放声大笑”-“老泪纵横”-“勃然大怒”的观察状态，如何确定是那些侍神（隐状态）导致的这种情况呢？

那么我们计算的时候，可以选取MAX{P(笑-泪-怒　|　修罗王－修罗王－修罗王), P(笑-泪-怒 | 修罗王-修罗王-阿修罗），.......， P(笑-泪-怒 | 罗刹神-罗刹神-罗刹神) }

中最大的概率，即可求出期望的最大隐状态转换。

第一天：

一天：放声大笑

修罗王 (0.63 * 0.6) = 0.37800002

阿修罗 (0.17 * 0.25) = 0.0425

罗刹神 (0.2 * 0.05) = 0.010000001

第二天：老泪纵横

修罗王 max ((0.37800002*0.5), (0.0425*0.375), (0.010000001*0.125)) * 0.15 = 0.028350003

阿修罗 max ((0.37800002*0.25), (0.0425*0.125), (0.010000001*0.675)) * 0.25 = 0.023625001

罗刹神 max ((0.37800002*0.25), (0.0425*0.375), (0.010000001*0.375)) * 0.35 = 0.033075

修罗王(0.63 * 0.6) = 0.37800002
阿修罗(0.17 * 0.25) = 0.0425
罗刹神(0.2 * 0.05) = 0.010000001

第二天：老泪纵横
修罗王max ((0.37800002*0.5), (0.0425*0.375), (0.010000001*0.125)) * 0.15 = 0.028350003
阿修罗max ((0.37800002*0.25), (0.0425*0.125), (0.010000001*0.675)) * 0.25 = 0.023625001
罗刹神max ((0.37800002*0.25), (0.0425*0.375), (0.010000001*0.375)) * 0.35 = 0.033075

第三天：勃然大怒
修罗王max ((0.028350003*0.5), (0.023625001*0.375), (0.033075*0.125)) * 0.05 = 0.000708750
阿修罗max ((0.028350003*0.25), (0.023625001*0.125), (0.033075*0.675)) * 0.25 = 0.00558140
罗刹神max ((0.028350003*0.25), (0.023625001*0.375), (0.033075*0.375)) * 0.5 = 0.006201562

可见，第一天，修罗王主宰阿黄最为可能；
第二天，由修罗王变为罗刹神，造成阿黄老泪纵横的可能最大；
而第三天，继续由罗刹神主宰阿黄，造成勃然大怒的可能最大
所以，对应“放声大笑－老泪纵横－勃然大怒”最可能的侍神组合为：修罗王－罗刹神－罗刹神

三：使用HMM模型的步骤：

HMM包含两类状态，三种关系：初始状态，状态转移矩阵，两状态混合矩阵。

HMM除了上面两个功能之外还有一个从观察序列得出HMM的这一种应用。（当然这个最难，根据观察序列和其代表的隐状态，生成一个三元组HMM（Π,A,B））。以后有时间了我会继续研究和实现的。

四：HMM应用：

说了这么多，HMM到底有什么应用呢？

HMM一开始是在信息论中应用的，后来才被应用到自然语言处理还有其他图像识别等各个方面。下面举两个例子说明他的应用，一个是输入法的整句解码，一个是语音识别。有图为证：