使用Java-Hanlp训练CRF模型

知忆_IS

已于 2023-03-29 21:50:13 修改

阅读量1.9k

点赞数 4

CC 4.0 BY-SA版权

文章标签： java nlp 自然语言处理中文分词

于 2023-03-29 21:49:52 首次发布

本文链接：https://blog.csdn.net/qq_44833403/article/details/129846066

文章介绍了CRF在中文分词中的优势，特别是对于未登录词的支持，以及如何利用CRF进行模型训练，包括语料库准备、词性标注、训练过程和BEMS标注。通过自定义地址语料库训练，改善了对地址元素的识别，满足特定项目需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

CRF是序列标注场景中常用的一种语言模型，与基于隐马尔可夫模型（HMM）的最短路径分词、N-最短路径分词相比，基于条件随机场（CRF）的分词对未登录词有更好的支持。CRF的效果比感知机稍好一些，然而训练速度较慢，也不支持在线学习。
在这里插入图片描述

一、CRF分词

官网给出的CRF分词方法如下：

public class DemoCRFSegment
{
    public static void main(String[] args)
    {
        HanLP.Config.ShowTermNature = false;    // 关闭词性显示
        Segment segment = new CRFSegment();
        String[] sentenceArray = new String[]
                {
                        "HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。",
                        "鐵桿部隊憤怒情緒集結 馬英九腹背受敵",           // 繁体无压力
                        "馬英九回應連勝文“丐幫說”：稱黨內同志談話應謹慎",
                        "高锰酸钾，强氧化剂，紫红色晶体，可溶于水，遇乙醇即被还原。常用作消毒剂、水净化剂、氧化剂、漂白剂、毒气吸收剂、二氧化碳精制剂等。", // 专业名词有一定辨识能力
                        "《夜晚的骰子》通过描述浅草的舞女在暗夜中扔骰子的情景,寄托了作者对庶民生活区的情感",    // 非新闻语料
                        "这个像是真的[委屈]前面那个打扮太江户了，一点不上品...@hankcs",                       // 微博
                        "鼎泰丰的小笼一点味道也没有...每样都淡淡的...淡淡的，哪有食堂2A的好次",
                        "克里斯蒂娜·克罗尔说：不，我不是虎妈。我全家都热爱音乐，我也鼓励他们这么做。",
                        "今日APPS：Sago Mini Toolbox培养孩子动手能力",
                        "财政部副部长王保安调任国家统计局党组书记",
                        "2.34米男子娶1.53米女粉丝 称夫妻生活没问题",
                        "你看过穆赫兰道吗",
                        "乐视超级手机能否承载贾布斯的生态梦"
                };
        for (String sentence : sentenceArray)
        {
            List<Term> termList = segment.seg(sentence);
            System.out.println(termList);
        }
    }
}

针对项目需求，主要对地址文本进行分词，但是由于地址文本与一般文本相比，是具有空间结构和空间嵌套关系的字符串，尤其注重对地址元素的抽取和拆分。例如以`湖北省荆州市荆州区荆秘路266-1号`门牌号地址为例，在Hanlp原生训练的CRF模型下，得到的分词结果为：

在这里插入图片描述

该模型无法区分地址元素【荆州区】【荆秘路】，因此无法满足实际需要。
本文对其做出的改进为，在默认语料库添加地址语料库进行自定义模型训练。

二、CRF模型训练

1、语料库准备

hanlp提供了默认的训练模型，默认模型训练语料库为 OpenCorpus/pku98/199801.txt，随1.6.2以上版本发布。
语料库格式为人民日报2014语料格式：

单词与词性之间使用/分割，如华尔街/nsf，且任何单词都必须有词性，包括标点等。
单词与单词之间使用空格分割，如美国/nsf 华尔街/nsf 股市/n。
支持用[]将多个单词合并为一个复合词，如[纽约/nsf 时报/n]/nz，复合词也必须遵守1和2两点规范。

训练时将满足上述格式的语料以纯文本txt导出到一个目录下即可。OpenCorpus/pku98/199801.txt即为一个单文档的例子，可供参考。

2、词性标注

HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料，随后增加了少量98年人民日报中独有的词语。
本文所用到的词性标注包括：

ns 地名
q 量词
m 数词

其余词性标注集如链接所示。
语料库示例：在这里插入图片描述

3、训练

CRF模型训练可以直接使用在hanlp Java API进行，使用CRFSegmenter.train，确定好语料库和输出文件路径即可。

private static final String CWS_MODEL_PATH = "模型输出路径/文件名.txt";
public static void main(String[] args) throws IOException {
       CRFSegmenter segmenter = new CRFSegmenter(null);
       segmenter.train("语料库路径/文件名.txt", CWS_MODEL_PATH);
    }

训练过程为：
在这里插入图片描述

4、结果文件

生成结果文件为：
在这里插入图片描述

其中version说明了模型的版本，通过-c参数指定的cost-factor，maxid特征函数的最大id，xsize是特征维数，也就是训练语料列数-1。

训练时候用到的模板文件如下：

U0:%x[-1,0]    
U1:%x[0,0]
U2:%x[1,0]
U3:%x[-2,0]%x[-1,0]
U4:%x[-1,0]%x[0,0]
U5:%x[0,0]%x[1,0]
U6:%x[1,0]%x[2,0]
B

后面部分为特征函数和依照id顺序对应的特征函数权值：
在这里插入图片描述

在这里插入图片描述

5、BEMS标注

如果想采用CRF++的方法进行训练，也可以将其转换为CRF++支持的格式。CRF++是著名的条件随机场开源工具，也是目前综合性能最佳的CRF工具，有直接的工具包可以进行使用。CRF++工具包使用介绍

同时java-hanlp也提供了CRF++支持的语料库格式转换方法，该格式使用BEMS对文本进行标注。

public static void main(String[] args) throws IOException {
       CRFSegmenter segmenter = new CRFSegmenter(null);
       segmenter.convertCorpus("语料库路径/文件名.txt", "文件输出路径/文件名.tsv");
    }

BEMS所说是中科院的提出一种标注，也有说BEIS的，hanlp用的是BEMS
B：开始
E：结束
M/I：中间
S：单独成词的位置

HMM模型就采用了状态为(B,E,M,S)这四种状态来标记中文词语，比如北京可以标注为BE，即北/B 京/E，表示“北”是开始位置，“京”是结束位置，“中华民族”可以标注为BMME，就是开始-中间-中间-结束。地址文本标注结果如下：
在这里插入图片描述
参考链接：CRF++模型格式说明

三、实验结果

将训练好的文本模型替换原语料库的模型。在hanlp.properties中进行路径设置，
若选择模型替换，模型路径参数直接缺省即可。或者使用HanLP.Config.CRFCWSModelPath读取新模型路径。

以下两种方式调用CRF分词均可。

public static void main(String[] args) throws IOException {
        CRFLexicalAnalyzer segment = new CRFLexicalAnalyzer(HanLP.Config.CRFCWSModelPath);
        System.out.println(HanLP.Config.CRFCWSModelPath);
        segment.enablePartOfSpeechTagging(true);
        System.out.println(segment.seg("湖北省荆州市荆州区珞南街道金山路29-9号"));

        CRFSegmenter segmenter = new CRFSegmenter();
        List<String> wordList = segmenter.segment("湖北省荆州市荆州区荆秘路266-1号");
        System.out.println(wordList);
        }