无监督中文分词算法近年研究进展

本文介绍了无监督中文分词的最新研究,包括基于神经网络的Segmental Language Models(SLMs)和基于词嵌入的WEB-CWS方法。SLMs在SIGHAN 2005数据集上取得优秀表现,而WEB-CWS通过利用词嵌入改善了跨领域中文分词效果,尤其在名词实体识别方面。此外,文章还提及了PATI Filtered N-gram Embedding(PFNE)模型,该模型通过无监督关联度量方法提高n-gram嵌入质量。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|韩蕊莘

学校|北京大学硕士生

研究方向|问答系统

SLM

论文标题:

Unsupervised Neural Word Segmentation for Chinese via Segmental Language Modeling

论文来源:

EMNLP 2018

论文链接:

https://arxiv.org/abs/1810.03167

代码链接:

https://github.com/Edward-Sun/SLM

本文首次提出了基于神经网络的无监督中文分词模型,并在 SIGHAN 2005 分词竞赛的四个不同数据集上实现了最先进的统计模型性能。以往的无监督分词模型可大致分为判别模型和生成模型。前者使用精心设计的有效方法(互信息,nVBE,MDL 等等)来进行候选词分割,而后者侧重于为中文设计统计模型,并找到生成概率最高的最优分割。

本文提出了一种基于神经网络的生成式模型:Segmental Language Models (SLMs),SLMs 可以直接生成分词后的句子,并给出相应的生成句子的概率。

1.1 Segmental Language Models

本文受到 RNN 的启发,本时刻的状态受到上一状态的影响。与神经语言模型相似,SLMs 建模的目标是学习分割后的字符序列的联合概率函数。

作者采用了 encoder+decoder 的范式来解决这个问题,但由于是无监督的分词,作者使用了一个 RNN 作为 encoder 给整个序列进行编码作为每个字的 embedding,因为 decoder 生成的内容与 encoder 提供的内容不一样,所以 SLM 不是一个标准的 encoder-decoder 模型。SLM 的具体工作方式如图:

因为是无监督的,作者计算了每个字的所有可能的分词序列的概率:

1.2 实验结果

从表 1 可以看出,SLMs 在 PKU 和 AS 数据集上优于以往最好的判别和生成模型。这可能是由于 SLM 模型的分割准则更接近这两个数据集(模型名称后面的数字表示的是最大切分长度)。

此外作者还发现在中文中,“的”经常跟在形容词之后,“了”经常跟在动词之后。因此,作者提出一个后处理模块来处理这个问题。此外,作者还利用分割后的训练数据集的前 1024 句对来弱监督训练“SLM-4”,并进行了评价。

1.3 总结

本文提出了一种完全无监督中文词汇挖掘的神经网络生成模型。这是当时中文无监督分词的第一个神经网络模型。实验结果表明,该模型在 SIGHAN 2005 的四个数据集上实现了与 SOTA 统计模型相当的性能。

WEB-CWS

论文标题:

Improving Cross-Domain Chinese Word Segmentation with Word Embeddings

论文来源:

NAACL 2019

论文链接:

https://arxiv.org/abs/1903.01698

代码链接:

https://github.com/vatile/CWS-NAACL2019

2.1 Intro

分词几乎是所有 NLP 任务的基础,但是往往会存在带标注的数据数量有限的问题,这一问题很大程度限制了模型的 performance。

因此本文提出了一种基于半监督的方法来改善中文分词(Chinese Word Segmentation, CWS)的效果。该方法不需要制定复杂的手工特性和特定领域的字典。只需要考虑目标域内在原始文本上训练的 word-embedding 即可。该方法较 baseline 能够提升 3 个点。

2.2 Contributions

在中文中,我们对于分词有一个基本的直觉:在同一个上下文窗口内的单词组合应该彼此接近。也就是说,如果一个序列的切分不正确,那么这些切分错误的词很可能在语义和句法上与其周围的词不一致。因此,一个不正确的分词的 embedding 应该远离它周围词的 embedding。

  • 基于以上假设,作者提出了一种基于 word-embedding 的半监督分词方法——WEB-CWS(Word-Embedding-Based CWS),该方法还可以实现 cross-domain 的分词。

  • 作者在多个数据集中验证了该方法的有效性(e.g., novels, medicine, and patent)。

2.3 Word-Embedding-Based CWS

模型整体流程如上图。

  • 首先会有一个 taget domain 的 raw corpus,我们将其定义为语料 T ,然后使用作为 beseline 的 segmenter 去分词,分完词之后得到语料 T'

  • 然后在 T' 上利用基于 word-embedding 的分词方法(WEB-CWS)得到一组单词的 embeddings E。此外,所有在 T' 中的 token 组合成一个 taget domain 的字典 D

  • 最后,ED 使用基于单词嵌入的 segmenter 对 T 进行重新分割。

2.3.1 CWS-Oriented Word Embedding Model

作者在这部分采用了 w2v 的 skip-gram 的思路,但是因为 skip-gram 的目标函数是 LM 的目标函数:

作者为了让模型更加适配 CWS 任务,做了以下几点修改:

添加面向 CWS 的负样本;Skip-gram 将词 w 的 context 在 window 里的词作为正样本,在本论文中,给定目标词 w 及其上下文 C,并将 SLSR 作为 C 中 w 左右的字符序列,对于 SLSR 的任意子串 s' 在字典 D 中,而不在 C 中,那么(w, s')会被看做一个负样本。

改变对多字词进行子采样的方法;作者使用了一种多字词内部采样负样本的方法,比如给定一个多字符的目标单词 ,假设它所有的子词都在 D 中。作者提出的字内负采样方法将产生以下负样本:

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
近年来,中文分词算法的研究取得了一些进展。以下是一些主要的研究方向和方法: 1. 基于统计的方法:这种方法使用大规模的语料库进行训练,通过统计词语出现的频率和上下文信息来进行分词。常用的统计模型包括隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)等。 2. 基于规则的方法:这种方法使用人工定义的规则来进行分词。规则可以包括词典匹配、正则表达式等。这种方法的优点是可以精确地控制分词结果,但需要大量的人工工作。 3. 基于深度学习的方法:近年来,深度学习自然语言处理领域取得了很大的成功,也被应用于中文分词任务。常用的深度学习模型包括循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short-Term Memory,LSTM)和Transformer等。 4. 基于预训练模型的方法:预训练模型如BERT、GPT等在自然语言处理任务中取得了很好的效果,也被应用于中文分词任务。这种方法通过在大规模语料上进行预训练,然后在具体任务上进行微调,可以获得较好的性能。 5. 结合多种方法的方法:有些研究工作将多种方法进行结合,以充分利用它们的优点。例如,可以将基于规则的方法和基于统计的方法相结合,通过规则进行初步分词,然后使用统计模型进行进一步的调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值