条件随机场CRF

最新推荐文章于 2024-07-13 23:05:26 发布

小郭plus

最新推荐文章于 2024-07-13 23:05:26 发布

阅读量142

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/qq_45772158/article/details/134428500

版权

1 概述

CRF的概念和作用:

CRF(全称Conditional Random Fields), 条件随机场. 是给定输入序列的条件下, 求解输出序列的条件概率分布模型.
例子:
- 场景一: 假设有一堆日常生活的给小朋友排拍的视频片段, 可能的状态有睡觉、吃饭、喝水、洗澡、刷牙、玩耍等, 大部分情况, 我们是能够识别出视频片段的状态. 但如果你只是看到一小段拿杯子的视频, 在没有前后相连的视频作为前后文参照的情况下, 我们很难知道拿杯子是要刷牙还是喝水. 这时, 可以用到CRF模型.
- 场景二: 假设有分好词的句子, 我们要判断每个词的词性, 那么对于一些词来说, 如果我们不知道相邻词的词性的情况下, 是很难准确判断每个词的词性的. 这时, 我们也可以用到CRF.
基本定义: 我们将随机变量的集合称为随机过程. 由一个空间变量索引的随机过程, 我们将其称为随机场. 上面的例子中, 做词性标注时, 可以将{名词、动词、形容词、副词}这些词性定义为随机变量, 然后从中选择相应的词性, 而这组随机变量在某种程度上遵循某种概率分布, 将这些词性按照对应的概率赋值给相应的词, 就完成了句子的词性标注.

关于条件随机场与马尔科夫假设:

马尔科夫假设, 也就是当前位置的取值只和与它相邻的位置的值有关, 和它不相邻的位置的值无关.
应用到我们上面的词性标注例子中, 可以理解为当前词的词性是根据前一个词和后一个词的词性来决定的, 等效于从词性前后文的概率来给出当前词的词性判断结果.
现实中可以做如下假设: 假设一个动词或者副词后面不会连接同样的动词或者副词, 这样的概率很高. 那么, 可以假定这种给定隐藏状态(也就是词性序列)的情况下, 来计算观测状态的计算过程. 本质上CRF模型考虑到了观测状态这个先验条件, 这也是条件随机场中的条件一词的含义.

CRF关心如下三种问题：
评估观察序列概率。
模型参数学习。
预测问题/解码问题。

2.实体命名案例

2.1、三方库安装与导包

 # pip install nltk
import nltk # Natural Language Toolkit 自然语言处理工具包
 # pip install nltk
import sklearn_crfsuite # 条件随机场Python库
from sklearn_crfsuite import metrics

2.2、数据加载与配置

# 网络设置，跳过安全验证
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
# 下载比较慢，不稳定
nltk.download('conll2002') # 下载数据，
nltk.corpus.conll2002.fileids() # 查看数据类别

加载训练和测试数据

train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))

2.3、语料库介绍

通用语料库：CoNLL2002
语言：西班牙语
训练集：8323句
测试集：1517句
概念：一般来说，标注列表为[‘O’ ,‘B-MISC’, ‘I-MISC’, ‘B-ORG’ ,‘I-ORG’, ‘B-PER’ ,‘I-PER’, ‘B-LOC’ ,‘I-LOC’]。
其中，一般一共分为四大类：PER（人名），LOC（位置），ORG（组织）以及MISC（大杂烩），而且 B表示开始，I 表示中间，O 表示单字词。
语料格式：三列，分别表示词汇、词性、实体类型；使用Bakeoff-3评测中所采用的的BIO标注集即：
B-PER、I-PER 代表人名首字、人名非首字
B-LOC、I-LOC 代表地名首字、地名非首字
B-ORG、I-ORG 代表组织机构名首字、组织机构名非首字
O 代表该字不属于命名实体的一部分。
如：(‘Australia’, ‘NP’, ‘B-LOC’)
和其他语言一样，西班牙语也有很多词性，如：冠词、代词、动词、名词等等
例如：NP表示专有名词，PP表示过去分词

display(train_sents[0],test_sents[-100])
'''
[('Melbourne', 'NP', 'B-LOC'),
('(', 'Fpa', 'O'),
('Australia', 'NP', 'B-LOC'),
(')', 'Fpt', 'O'),
(',', 'Fc', 'O'),
('25', 'Z', 'O'),
('may', 'NC', 'O'),
('(', 'Fpa', 'O'),
('EFE', 'NC', 'B-ORG'),
(')', 'Fpt', 'O'),
('.', 'Fp', 'O')]
[('Valladolid', 'NC', 'B-LOC'),
(',', 'Fc', 'O'),
('23', 'Z', 'O'),
('may', 'NC', 'O'),
('(', 'Fpa', 'O'),
('EFE', 'NC', 'B-ORG'),
(')', 'Fpt', 'O'),
('.', 'Fp', 'O')]
'''

2.4、特征处理

主要选择处理了如下几个特征：
当前词的小写格式
当前词的后缀
当前词是否全大写 isupper
当前词的首字母大写，其他字母小写判断 istitle
当前词是否为数字 isdigit
当前词的词性
当前词的词性前缀

def word2features(sent, i):
word = sent[i][0]
postag = sent[i][1]
# 当前词的特征信息
features = {
'word.lower()': word.lower(), # 小写形式
'word[-3:]': word[-3:], # 词切片
'word[-2:]': word[-2:],
'word.isupper()': word.isupper(),# 判断是否大写
'word.istitle()': word.istitle(), # 当前词的首字母大写，其他字母小写判断
'word.isdigit()': word.isdigit(), # 判断是否是数字
'postag': postag, # 词性
'postag[:2]': postag[:2]} # 词性切片，去一部分
# 前一个词的特征信息
if i > 0:
word1 = sent[i-1][0]
postag1 = sent[i-1][1]
features.update({
'-1:word.lower()': word1.lower(),
'-1:word.istitle()': word1.istitle(),
'-1:word.isupper()': word1.isupper(),
'-1:postag': postag1,
'-1:postag[:2]': postag1[:2]})
else:
features['BOS'] = True # 表示开始
# 后一个词的特征信息
if i < len(sent)-1:
word1 = sent[i+1][0]
postag1 = sent[i+1][1]
features.update({
'+1:word.lower()': word1.lower(),
'+1:word.istitle()': word1.istitle(),
'+1:word.isupper()': word1.isupper(),
'+1:postag': postag1,
'+1:postag[:2]': postag1[:2]})
else:
features['EOS'] = True # 表示结束
return features # 返回词特征信息
# 文本数据特征提取
def sent2features(sent):
return [word2features(sent, i) for i in range(len(sent))]
# 文本数据对应词性
def sent2labels(sent):
return [label for token, postag, label in sent]

2.5、文本数据特征提取

X_train = [sent2features(s) for s in train_sents]
y_train = [sent2labels(s) for s in train_sents]
X_test = [sent2features(s) for s in test_sents]
y_test = [sent2labels(s) for s in test_sents]
display(y_train[0],X_train[0])
display(y_test[0],X_test[0])

2.6、条件随机场CRF建模

crf = sklearn_crfsuite.CRF(
c1=0.1,# L1正则化系数
c2=0.1, # L2正则化系数
max_iterations=100, # 梯度下降迭代次数
all_possible_transitions=True)
# all_possible_transitions 参数说明：
# 指定条件随机场CRF是否生成训练数据中甚至没有出现的转移特征（即负转移特征）。
# 如果为True，CRF将生成关联所有可能标签对的转移特征
crf.fit(X_train, y_train)

2.7、测试数据预测

y_pred = crf.predict(X_test)
print('条件随机场实体命名准确率是：',crf.score(X_test,y_test))
display(y_pred[:2],y_test[:2])
'''
条件随机场实体命名准确率是： 0.971455184056818
[['B-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'B-ORG', 'O', 'O'], ['O']]
[['B-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'B-ORG', 'O', 'O'], ['O']]
'''