NLP 基础之分词、向量化、词性标注

最新推荐文章于 2024-03-15 10:12:54 发布

村雨遥

最新推荐文章于 2024-03-15 10:12:54 发布

阅读量1.6k

点赞数

分类专栏：人工智能文章标签： NLP 分词词性标注

首发地址：https://cunyu1943.github.io，转载请署名出处！

本文链接：https://blog.csdn.net/github_39655029/article/details/84869448

版权

13 篇文章 1 订阅

订阅专栏

状态值序列
B：Begin；
M：Middle；
E：End；
S：Single；
观察值序列
待切分的词；
初始化概率
BMES这四种状态在第一个字的概率分布情况；
状态转移矩阵
HMM中，假设当前状态只与上一状态相关，则此关系可用转移矩阵表示；
条件概率矩阵
HMM中，观察值只取决与当前状态值（假设条件），条件概率矩阵主要建模在BMES下各个词的不同概率，和初始化概率、状态转移矩阵一样，需要在语料中计算得到对应的数据；

HMM描述的是已知量和未知量的一个联合概率分布，属于generative model，而CRF则是建模条件概率，属于discriminative model；且CRF特征更加丰富，可通过自定义特征函数来增加特征信息，CRF能建模的信息应该包括HMM的状态转移、数据初始化的特征；主要包括两部分特征：

基本步骤：

每个词只在对应的index置1，其他位置均为0，难点在于做相似度计算；

LSA使用词-文档矩阵，矩阵常为系数矩阵，行代表词语，列代表文档；词-文档矩阵表示中的值表示词在文章中出现的次数；难点在于当语料库过大时，计算很耗费资源，且对未登录词或新文档不友好；

包括CBOW和Skip-gram模型；CBOW的输入为上下文的表示，然后对目标词进行预测；Skip-gram每次从目标词w的上下文c中选择一个词，将其词向量作为模型输入；
Skip-gram主要结构：

关注