一文看懂什么是分词

在人工智能领域(尤其是自然语言处理),分词(Tokenization)是将连续文本拆解为独立语义单元(如词、子词或字符)的基础技术。

以下是结合技术原理与应用场景的全面解析:


🔍 一、分词的目的是什么?

中文等语言缺乏天然分隔符(如英文空格),需通过分词将连续字序列转化为计算机可处理的独立单元。

例:
“我爱学习” → 分词为 [“我”, “爱”, “学习”]
英文无需分词:“I love learning” → 天然分隔为 [“I”, “love”, “learning”]


⚙️ 二、中文分词的三大核心技术

  1. 基于规则的方法(词典匹配)

• 原理:与预置词典匹配,优先匹配最长词串。

• 典型算法:

◦ 正向最大匹配(FMM):从左向右扫描(例:“结婚的和尚未结婚” → 错误切分“结婚/和尚”)

◦ 逆向最大匹配(RMM):从右向左扫描(例:“上海大学城” → 正确切分“上海/大学城”)

◦ 双向匹配:结合FMM与RMM结果择优选择

• 局限:依赖词典完备性,难以处理未登录词和歧义。

  1. 基于统计的方法

• 核心思想:通过语料库统计字间共现概率,识别稳定字组合(即词)。

• 关键技术:

◦ 隐马尔可夫模型(HMM):将分词转化为序列标注问题(B:词首,M:词中,E:词尾,S:单字词)

例:“学习” → 标注为 B E(双字词)

◦ N-gram语言模型:选择概率最大的分词组合(例:“发展中国家” → P(发展-中-国家) > P(发展-中国-家))

• 优势:可识别未登录词(如新词“元宇宙”)。

  1. 深度学习方法

• 联合模型:

◦ BiLSTM + CRF:双向LSTM捕捉上下文语义,CRF优化标注序列

◦ 注意力机制:动态加权关键信息(如创新工场2020年ACL论文的双通道模型)

• 预训练模型应用:BERT等模型内置子词分词(如WordPiece),直接输出上下文相关向量。


🧩 三、分词的难点与挑战

  1. 歧义消解

• 组合型歧义:同一字串可切分为不同粒度

例:“北京大学” → 整体为专有名词,或拆分为“北京/大学”

• 交集型歧义:字串重叠导致多重切分

例:“部分居民生活水平” → 正确:部分/居民/生活/水平,错误:部分/居民/生/活水平

• 真歧义:需依赖语境理解(例:“下雨天留客天留人不留”的多义性)。

  1. 未登录词识别

• 类型:新网络词(“给力”)、人名/地名(“王瑜珲”)、专业术语(“苏丹红”)

• 挑战:无词典支持、边界模糊、与常规词易冲突(如“e租宝”)。

  1. 领域适应性

• 跨领域文本需动态更新词典(如医疗词“冠状动脉”在通用语料中罕见)。


🚀 四、分词在AI中的关键应用

  1. 搜索引擎:切分查询词提升召回率(如“苹果手机”需避免误切为“苹果/手/机”)

  2. 机器翻译:正确切分源语言是翻译基础(例:“他马上功夫好” → 误切“马上”(副词)导致语义错误)

  3. 情感分析:依赖分词提取评价主体(如“餐厅服务差” → 识别“服务”为负面关键词)

  4. 大模型输入:BERT等模型需分词后转为词向量。


💡 五、技术演进趋势

• 混合策略:规则词典初筛 + 统计模型消歧 + 深度学习优化(如jieba分词)

• 少样本学习:通过提示工程(Prompting)减少对标注数据的依赖

• 多任务联合:分词与词性标注同步进行(如ACL 2020的双通道注意力模型)。

分词的终极目标:让机器像人类一样理解语言边界——不仅是技术问题,更是语义理解的桥梁。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值