自然语言处理——3.28课后作业

最新推荐文章于 2022-04-17 16:12:20 发布

Qamra_Chen

最新推荐文章于 2022-04-17 16:12:20 发布

阅读量2.1k

点赞数

本文链接：https://blog.csdn.net/Qamra_Chen/article/details/88404286

版权

该博客介绍了如何设计汉语的组合标注器，利用thulac对Leipzig10ksents.txt文本进行分词和标注。内容包括将thulac标注格式转换为nltk所需格式，创建训练集和测试集，以及使用不同类型的标注器（默认、一元、二元、正则表达式）以提高标注效果。此外，还提到了在不同操作系统中处理编码问题的方法。

摘要由CSDN通过智能技术生成

自然语言处理——3.28课后作业

问题：设计汉语的组合标注器，训练和测试语料使用thulac标注过的汉语文本。

1.导入thulac模块，对文件Leipzig10ksents.txt进行分词并标注。

import thulac
thu = thulac.thulac()
thu.cut_f('/Users/chenqiutong/U盘备份/Qamra--NLP/lesson_4/Leipzig10ksents3.txt','/Users/chenqiutong/U盘备份/Qamra--NLP/lesson_4/Leipzig10ksents4.txt')

标注后的语料如下：