讲座笔记:中文分词基础介绍

本文介绍了中文分词的基本概念、难点、评估标准及历史发展。分词是自然语言处理中的关键步骤,包括词表匹配、语法语言模型、序列标注等方法。随着技术进步,深度学习被应用于序列标注,解决长距离依赖问题。工程实践中,数据标注、模型优化、计算加速和内存压缩是重要环节,涉及半监督学习、规则融合、硬件加速和知识萃取等技术。
摘要由CSDN通过智能技术生成

今天听了一个分词讲座,较为基础的全面介绍以及工业上的一些实践。

整理了一下,尽量不写公式用文字说明。


分词是NLP中处理中文数据特有的一种方法,因为英文天然有空格隔开,所以分词主要针对的是中文文本数据。

定义
  • 分词指将一串汉字序列,按照一定规范,合理地切分成一个词序列的过程
        eg. 我/出门/了
难点:
  • 分词规范不统一(PKU,CTB,etc)
  • 歧义切分(交集型:结合/成 or 结/合成;组合型:学生会 or 学生/会;真歧义:一打啤酒 or 打人)
  • 未登录词(人名,地名,新词,etc),也叫OOV
评估标准
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>