crf++完成分词任务（人民日报）

最新推荐文章于 2022-04-12 18:44:34 发布

kawhi849

最新推荐文章于 2022-04-12 18:44:34 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/qq_35014850/article/details/81408260

版权

安装好crf++后（其实这里用到的只是crflearn.exe和crftest.exe）和下载人民日报的数据之后，我们就可以准备CRF方法的训练过程了。首先是对数据进行处理，生成训练所需的文件。我们去除一些不必要的符号、空格等，对词的位置进行标注（分为单字和多字处理），生成几个文件。其中训练数据和测试数据按照9：1的比例设置。get_train_data.py# coding = u...

摘要由CSDN通过智能技术生成

安装好crf++后（其实这里用到的只是crflearn.exe和crftest.exe）和下载人民日报的数据之后，我们就可以准备CRF方法的训练过程了。

首先是对数据进行处理，生成训练所需的文件。我们去除一些不必要的符号、空格等，对词的位置进行标注（分为单字和多字处理），生成几个文件。其中训练数据和测试数据按照9：1的比例设置。

get_train_data.py

# coding = utf8
'''
处理人民日报文本数据，生成训练所需数据train.data等，可用来训练crf模型
'''
import codecs

def covertTag():
    src_file = codecs.open('./'+'guomengfei.txt','r')  #读标注数据
    # 写train.data/test.data/test_real.data等文件
    test_real_file = codecs.open('./' + 'test_rel.data', 'w', 'utf-8')
    test_file = codecs.open('./' + 'test.data', 'w', 'utf-8')
    train_file = codecs.open('./' + 'train.data', 'w', 'utf-8')

    i = 0 #行数
    for line in src_file.readlines():
        line = l

最低0.47元/天解锁文章

kawhi849

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
crf++完成分词任务（人民日报）

安装好crf++后（其实这里用到的只是crflearn.exe和crftest.exe）和下载人民日报的数据之后，我们就可以准备CRF方法的训练过程了。首先是对数据进行处理，生成训练所需的文件。我们去除一些不必要的符号、空格等，对词的位置进行标注（分为单字和多字处理），生成几个文件。其中训练数据和测试数据按照9：1的比例设置。get_train_data.py# coding = u...
复制链接

扫一扫