一文看懂什么是分词

星际棋手

已于 2025-06-11 18:08:31 修改

阅读量292

点赞数 3

分类专栏： 210 数据.Elasticsearch 文章标签：人工智能

于 2025-06-06 07:47:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/singc/article/details/148463045

版权

210 数据.Elasticsearch 专栏收录该内容

7 篇文章

订阅专栏

在人工智能领域（尤其是自然语言处理），分词（Tokenization）是将连续文本拆解为独立语义单元（如词、子词或字符）的基础技术。

以下是结合技术原理与应用场景的全面解析：

🔍 一、分词的目的是什么？

中文等语言缺乏天然分隔符（如英文空格），需通过分词将连续字序列转化为计算机可处理的独立单元。

例：
“我爱学习” → 分词为 [“我”, “爱”, “学习”]
英文无需分词：“I love learning” → 天然分隔为 [“I”, “love”, “learning”]

⚙️ 二、中文分词的三大核心技术

基于规则的方法（词典匹配）

• 原理：与预置词典匹配，优先匹配最长词串。

• 典型算法：

◦ 正向最大匹配（FMM）：从左向右扫描（例：“结婚的和尚未结婚” → 错误切分“结婚/和尚”）

◦ 逆向最大匹配（RMM）：从右向左扫描（例：“上海大学城” → 正确切分“上海/大学城”）

◦ 双向匹配：结合FMM与RMM结果择优选择

• 局限：依赖词典完备性，难以处理未登录词和歧义。

基于统计的方法

• 核心思想：通过语料库统计字间共现概率，识别稳定字组合（即词）。

• 关键技术：

◦ 隐马尔可夫模型（HMM）：将分词转化为序列标注问题（B：词首，M：词中，E：词尾，S：单字词）

例：“学习” → 标注为 B E（双字词）

◦ N-gram语言模型：选择概率最大的分词组合（例：“发展中国家” → P(发展-中-国家) > P(发展-中国-家)）

• 优势：可识别未登录词（如新词“元宇宙”）。

深度学习方法

• 联合模型：

◦ BiLSTM + CRF：双向LSTM捕捉上下文语义，CRF优化标注序列

◦ 注意力机制：动态加权关键信息（如创新工场2020年ACL论文的双通道模型）

• 预训练模型应用：BERT等模型内置子词分词（如WordPiece），直接输出上下文相关向量。

🧩 三、分词的难点与挑战

歧义消解

• 组合型歧义：同一字串可切分为不同粒度

例：“北京大学” → 整体为专有名词，或拆分为“北京/大学”

• 交集型歧义：字串重叠导致多重切分

例：“部分居民生活水平” → 正确：部分/居民/生活/水平，错误：部分/居民/生/活水平

• 真歧义：需依赖语境理解（例：“下雨天留客天留人不留”的多义性）。

未登录词识别

• 类型：新网络词（“给力”）、人名/地名（“王瑜珲”）、专业术语（“苏丹红”）

• 挑战：无词典支持、边界模糊、与常规词易冲突（如“e租宝”）。

领域适应性

• 跨领域文本需动态更新词典（如医疗词“冠状动脉”在通用语料中罕见）。

🚀 四、分词在AI中的关键应用

搜索引擎：切分查询词提升召回率（如“苹果手机”需避免误切为“苹果/手/机”）
机器翻译：正确切分源语言是翻译基础（例：“他马上功夫好” → 误切“马上”（副词）导致语义错误）
情感分析：依赖分词提取评价主体（如“餐厅服务差” → 识别“服务”为负面关键词）
大模型输入：BERT等模型需分词后转为词向量。

💡 五、技术演进趋势

• 混合策略：规则词典初筛 + 统计模型消歧 + 深度学习优化（如jieba分词）

• 少样本学习：通过提示工程（Prompting）减少对标注数据的依赖

• 多任务联合：分词与词性标注同步进行（如ACL 2020的双通道注意力模型）。

分词的终极目标：让机器像人类一样理解语言边界——不仅是技术问题，更是语义理解的桥梁。

博客等级

码龄12年

140
原创

267
点赞

325
收藏

106
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 数据向量化初探

下一篇：: Swagger和OpenApi的前世今生

最新评论

问题集.钉钉oapi.dingtalk.com无法访问，java.net.UnknownHostException: oapi.dingtalk.com
LIUZHIOJ: ip不是固定的
一个技术人员的职业发展过程
一个小脑袋: 写得不错呀博主，继续关注!
Java.前端.Layer.open.btn验证无效
OvOiiiii: btn2 跟btn3 点击无效
问题集.钉钉oapi.dingtalk.com无法访问，java.net.UnknownHostException: oapi.dingtalk.com
~人: [root@zhesi01 ~]# java -cp untitled.jar zs log4j:WARN No appenders could be found for logger (topsdk). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. Exception in thread "main" com.taobao.api.ApiException: java.net.ConnectException: Connection refused (Connection refused) at com.dingtalk.api.DefaultDingTalkClient.executeOApi(DefaultDingTalkClient.java:155) at com.dingtalk.api.DefaultDingTalkClient.executeOApi(DefaultDingTalkClient.java:47) at com.dingtalk.api.DefaultDingTalkClient.execute(DefaultDingTalkClient.java:34) at com.taobao.api.DefaultTaobaoClient.execute(DefaultTaobaoClient.java:67) at zs.getAccessToken(zs.java:32) at zs.GetAccessToken(zs.java:21) at zs.main(zs.java:66)
【Linux常用命令】vim的多行复制、删除、剪切
普通网友: 最后一行少一个n，应该是n + dd + p 删除当前行起以下n行(含当前行), 敲p粘贴在光标所在新位置.哈哈

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。