自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 利用CRF++处理英文语料实验过程(二):将语料划分为训练语料和测试语料

数据划分规则 总数据量有1692行,这里我按照4:1的比例划分训练数据和测试数据。划分结束后,训练数据的行数为: 测试数据的行数为: 所以训练数据:测试数据近似于4:1 详细代码 这里将显示我是如何进行数据划分的 #数据预处理:每5行的第1行放到测试数据集中,其余4行作为训练数据集 f1 = open("train.data",'w+') f2 = open("test.data",'w+'...

2019-06-12 16:28:51 938

原创 利用CRF++处理英文语料实验过程(一):将文件夹下的所有TXT文本合并为一个TXT文本

实例 文件夹的全路径为E:\CRF++对FrameNet做处理内容\语料预处理\TagResult,可以看到这个文件夹下存放着我们的初始语料,每个词元都用一个文件夹来整理这个词元下不同框架的语料。因此首先需要整合这些语料为一个完整的语料才可以进行后续的步骤。在这个实例中,我将把整合结果存放在Tagresult_full.txt中。 显示了can这个词元下所有框架组成的语料文件 详细代码 我这里...

2019-06-12 16:20:04 437

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除