基于肺癌语料库的CRF模型

最新推荐文章于 2022-10-07 22:31:24 发布

冬瓜在冬眠

最新推荐文章于 2022-10-07 22:31:24 发布

阅读量409

点赞数 1

分类专栏： python NLP 文章标签： NLP CRF 十折交叉运算

本文链接：https://blog.csdn.net/weixin_43077546/article/details/99541154

版权

python 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

NLP

1 篇文章 0 订阅

订阅专栏

目标：前两天老师给了我数据，让我构建一个CRF模型，并且用十折交叉验证计算出每一组数据的recall/precision/f1-score,最后用平均值加减标准差的形式展示。
过程：1.读取所有数据
在这里插入图片描述 2.训练CRF
我用80%做了训练集，20%做了测试集
因为采用的是已经标记过的肺癌语料库所以把标记单独列出来了，用于后面PRF三个指标的计算
3.构建模型
4.十折交叉验证
from sklearn.model_selection import KFold#要引入KFold包
kf = KFold(n_splits=10)#十折在这里插入图片描述
注意a和b的意思
这里的metrics.flat_classfication_report返回了一个string ,如图

嗷对还有代码用到的库
import os
import numpy as np
import pandas as pd
import xlrd
import sklearn_crfsuite
from sklearn.model_selection import RandomizedSearchCV
from sklearn_crfsuite import scorers
from sklearn_crfsuite import metrics
from sklearn.metrics import make_scorer
from sklearn.model_selection import KFold
import scipy.stats
还有官方网站
https://pypi.org/project/sklearn-pycrfsuite/

tip：在一开始的时候我计算出了好几个指标的PRF都是1.0的惊天指标 (吓得我瓜子都掉了)后来运行文档里面的代码发现他在一个tuple里面装了三个指标，特征提取器里面根部不需要提到标识符是啥……
即features里面不需要写’O’/‘I-ZZ’/B-CD’等只需要写出词前词后即可改了之后召回率准确率 F值瞬间降到了[0.7,0.8]

冬瓜在冬眠

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
基于肺癌语料库的CRF模型

目标：前两天老师给了我数据，让我构建一个CRF模型，并且用十折交叉验证计算出每一组数据的recall/precision/f1-score,最后用平均值加减标准差的形式展示。过程：1.读取所有数据2.训练CRF我用80%做了训练集，20%做了测试集因为采用的是已经标记过的肺癌语料库所以把标记单独列出来了，用于后面PRF三个指标的计算3.构建模型4.十折交叉验证from sklear...
复制链接

扫一扫

专栏目录