在人工智能领域(尤其是自然语言处理),分词(Tokenization)是将连续文本拆解为独立语义单元(如词、子词或字符)的基础技术。
以下是结合技术原理与应用场景的全面解析:
🔍 一、分词的目的是什么?
中文等语言缺乏天然分隔符(如英文空格),需通过分词将连续字序列转化为计算机可处理的独立单元。
例:
“我爱学习” → 分词为 [“我”, “爱”, “学习”]
英文无需分词:“I love learning” → 天然分隔为 [“I”, “love”, “learning”]
⚙️ 二、中文分词的三大核心技术
- 基于规则的方法(词典匹配)
• 原理:与预置词典匹配,优先匹配最长词串。
• 典型算法:
◦ 正向最大匹配(FMM):从左向右扫描(例:“结婚的和尚未结婚” → 错误切分“结婚/和尚”)
◦ 逆向最大匹配(RMM):从右向左扫描(例:“上海大学城” → 正确切分“上海/大学城”)
◦ 双向匹配:结合FMM与RMM结果择优选择
• 局限:依赖词典完备性,难以处理未登录词和歧义。
- 基于统计的方法
• 核心思想:通过语料库统计字间共现概率,识别稳定字组合(即词)。
• 关键技术:
◦ 隐马尔可夫模型(HMM):将分词转化为序列标注问题(B:词首,M:词中,E:词尾,S:单字词)
例:“学习” → 标注为 B E(双字词)
◦ N-gram语言模型:选择概率最大的分词组合(例:“发展中国家” → P(发展-中-国家) > P(发展-中国-家))
• 优势:可识别未登录词(如新词“元宇宙”)。
- 深度学习方法
• 联合模型:
◦ BiLSTM + CRF:双向LSTM捕捉上下文语义,CRF优化标注序列
◦ 注意力机制:动态加权关键信息(如创新工场2020年ACL论文的双通道模型)
• 预训练模型应用:BERT等模型内置子词分词(如WordPiece),直接输出上下文相关向量。
🧩 三、分词的难点与挑战
- 歧义消解
• 组合型歧义:同一字串可切分为不同粒度
例:“北京大学” → 整体为专有名词,或拆分为“北京/大学”
• 交集型歧义:字串重叠导致多重切分
例:“部分居民生活水平” → 正确:部分/居民/生活/水平,错误:部分/居民/生/活水平
• 真歧义:需依赖语境理解(例:“下雨天留客天留人不留”的多义性)。
- 未登录词识别
• 类型:新网络词(“给力”)、人名/地名(“王瑜珲”)、专业术语(“苏丹红”)
• 挑战:无词典支持、边界模糊、与常规词易冲突(如“e租宝”)。
- 领域适应性
• 跨领域文本需动态更新词典(如医疗词“冠状动脉”在通用语料中罕见)。
🚀 四、分词在AI中的关键应用
-
搜索引擎:切分查询词提升召回率(如“苹果手机”需避免误切为“苹果/手/机”)
-
机器翻译:正确切分源语言是翻译基础(例:“他马上功夫好” → 误切“马上”(副词)导致语义错误)
-
情感分析:依赖分词提取评价主体(如“餐厅服务差” → 识别“服务”为负面关键词)
-
大模型输入:BERT等模型需分词后转为词向量。
💡 五、技术演进趋势
• 混合策略:规则词典初筛 + 统计模型消歧 + 深度学习优化(如jieba分词)
• 少样本学习:通过提示工程(Prompting)减少对标注数据的依赖
• 多任务联合:分词与词性标注同步进行(如ACL 2020的双通道注意力模型)。
分词的终极目标:让机器像人类一样理解语言边界——不仅是技术问题,更是语义理解的桥梁。