贝叶斯网络实践

最新推荐文章于 2023-09-13 16:27:11 发布

qq_43498494

最新推荐文章于 2023-09-13 16:27:11 发布

阅读量232

点赞数

分类专栏：机器学习基础算法

本文链接：https://blog.csdn.net/qq_43498494/article/details/105782498

版权

机器学习基础算法专栏收录该内容

20 篇文章 0 订阅

订阅专栏

文章目录

主要内容

主要内容

在这里插入图片描述
利用库想去做分类时候，是怎样的一个现象。尤其关注分类的时间和效率怎么样，以及精度与logistic回归，SVM，岭回归可做一个比较。

即每个词出现的位置，即标注为1，未出现的词，即标注为0.

在这里插入图片描述

公式有时会有点差别，但是这是我们在自然语言中提取特征的办法，来算每一个词的权重是多少，就用TF-IDF来做。通过已有词典，或者从样本中得到长度为V的词典，维度仍然是V维的，但是元素不再是整型或者0-1向量了，而是浮点型了，将这个向量作为初始向量再给后面模型。可把这个IDF向量喂给贝叶斯，或主题模型LDA。

小插曲形式化理解马尔科夫模型

在这里插入图片描述

一般做马尔科夫模型时，认为状态转移矩阵近似是稳定不变的。

一点马尔科夫模型知识

文本数据的处理流程

即拿到文本数据，我们怎么样生成一些他的特征，然后喂给某一个模型。

在这里插入图片描述

TF-IDF模型

Word2vec的使用

在这里插入图片描述

在这里插入图片描述

词嵌入：

当然有V个词的空间其实是很稀疏的，但是当两个词很接近时，映射的V空间的向量有不同时，即没有太多关联，如people与person即没有相似性了，我们可将V维空间不要做的那么稀疏，将V维度降下来，如100维度空间；即都映射成100维空间的一个向量了；即就做一个100或200维的词嵌入。
我们希望两个相似词映射到100维空间后这两个词对应的向量也比较接近，可以使用这个词相邻的词。

在这里插入图片描述

具体做法

可将A词先初始化为一个长度为100初始的向量，将其他词也随机初始化为初始向量，调节A词与其周围词之间的权值，使得得到合适权值的情况之下，能够使得我们将当前A词对应长度为100的向量带入进去，能够使得预测值是近似相等的，最后不要权值，只是关心A这个词映射为100维空间的向量是什么。因此我们可以使用当前词去预测相邻的词，也有可能利用周围词预测某一个词。
在这里插入图片描述