新词发现:中文新词识别技术简介

本文介绍了新词识别的重要性及分类,重点阐述了基于规则和统计的新词识别方法,包括监督与无监督策略,探讨了统计量的选择及其在新词发现中的作用。
摘要由CSDN通过智能技术生成

一、前言

新词识别,也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分,下文均以新词指代。
在之前的博文中提到,中文分词中存在两个问题,未登录词识别和歧义切分,具体在《统计自然语言处理》中提到,中文分词有98%的错误来自未登录词,相比之下未登录词识别比歧义切分更需要关注。

二、概述

1、新词

参照前人的研究,新词主要可以分为以下三类:
(1)时间词和数量词
(2)命名实体
(3)普通新词
时间词和数量词也可以包含在命名实体中,在之前的博文中介绍过相关内容,这里主要介绍普通新词。
普通新词存在许多构词方式,参照《现代汉语新词资讯电子词典》的分类方法,主要分为以下类别:
这里写图片描述
崔【1】通过对大量的语料分析,得到如下新词构词模式:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值