【自然语言处理】一篇文章入门分词（Tokenization）

最新推荐文章于 2025-03-27 13:59:19 发布

samarua

最新推荐文章于 2025-03-27 13:59:19 发布

阅读量7.8k

点赞数 5

分类专栏： # NLP 自然语言处理文章标签： python 自然语言处理 NLP 机器学习

本文链接：https://blog.csdn.net/m0_46202073/article/details/109105266

版权

本文深入探讨了分词技术的基本概念，包括英文与中文分词的不同方法及挑战，介绍了基于词典、统计和语义理解的分词方法，并讨论了歧义处理与未登录词识别等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分词 >_<，英文tokenization，也叫word segmentation,是一种操作，它按照特定需求，把文本切分成一个字符串序列(其元素一般称为token，或者叫词语)。

英文分词

英文分词极为简单，下面给出两种分词思路：

import re
text = 'Lolita,light of my life,fire of my loins.My sin,my soul.'

# 分割的方式
pattern1 = re.compile(' ')
list1 = pattern1.split(text)

# 查找的方式
pattern2 = re.compile('\w+')
list2 = pattern2.findall(text)

# 打印出来，比较一下
print(list1)
print(list2)