【自然语言处理】一篇文章入门分词(Tokenization)

本文深入探讨了分词技术的基本概念,包括英文与中文分词的不同方法及挑战,介绍了基于词典、统计和语义理解的分词方法,并讨论了歧义处理与未登录词识别等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

分词 >_<,英文tokenization,也叫word segmentation,是一种操作,它按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,或者叫词语)。

 

英文分词

英文分词极为简单,下面给出两种分词思路:

import re
text = 'Lolita,light of my life,fire of my loins.My sin,my soul.'

# 分割的方式
pattern1 = re.compile(' ')
list1 = pattern1.split(text)

# 查找的方式
pattern2 = re.compile('\w+')
list2 = pattern2.findall(text)

# 打印出来,比较一下
print(list1)
print(list2)

在这里插入图片描述
无论是通过空格符进行分割出单词,还是直接正则匹配出单词,其实都是可以通过优化这个正则表达式进行优化分词效果。

我们意识到,我们仅仅用了两种简单的逻辑、短短的几行代码,分词的效果就特别特别好!!!

根源在于,英文本身就已经通过空白符进行了分词!!!
 
NLP中,其他的一些语言显然没这么幸运:

  1. 德语:德语构词法允许复合词的存在,可以理解为将多个简单单词直接拼接成一个复杂单词,并且中间不会添加任何连字符。感受一下,这是一个单词:Grundstücksverkehrsgenehmigungszuständigkeitsübertragungsverordnung
  2. 日语:日语的灾难在于,平假
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值