NLP-分词

最新推荐文章于 2024-08-16 08:45:16 发布

Swayzzu

最新推荐文章于 2024-08-16 08:45:16 发布

阅读量631

点赞数

分类专栏： NLP 文章标签：自然语言处理人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121305870

版权

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

一、分词工具

二、分词工具底层算法

1.前向最大匹配

3.维特比算法

一、分词工具

现有的分词工具有很多，比较常用的是jieba分词，直接调用cut方法即可。可以通过add_word添加jieba词库中没有的词。也有其他的工具，这里简单列举几个以及网址。

二、分词工具底层算法

1.前向最大匹配

前向最大匹配是一种贪心算法。比如我们需要分词的句子是“我们经常有意见分歧”，并且我们的词典如下面所示：

我们有一个参数需要设置max_len，也就是开始匹配的最长的字符串长度。

比如设为5，那么：

①看“我们经常有”这五个字是否出现在词典中

②如果没有，就去掉“有”，看“我们经常”是否出现在词典中

③如果没有，去掉“常”，看“我们经”是否出现在词典中

④如果没有，去掉“经”，看“我们”是否出现在词典中

⑤发现“我们”在词典中出现，将其添加到结果中["我们"]

接下来继续选择最大长度“经常有意见”，还是按照上面的步骤匹配，最终匹配到“经常”，添加到结果中["我们", "经常"]，同样的方法一直匹配到最后，剩余2个字，就直接匹配即可。

缺点：不能考虑语义、匹配的内容有可能还可以细分、局部最优、效率不高

2.语言模型

①传一个句子，找到所有可能的分割组合：比如：["我们", "经", "常", "有", "意", "见"], ["我们", "经常", "有", "意", "见"], ["我们", "经", "常", "有意", "见"], ["我们", "经常", "有", "意见"]......注意，组合中的词，都是在词典中出现的。词典中给出每个词的概率。

②根据一个语言模型，比如unigram language model，计算所有组合的概率：在unigram LM中，所有元素之间都是相互独立的，因此计算联合概率，把所有词的概率相乘即可。

比如：P( ["我们", "经常", "有", "意见"]) = P("我们")+P("经常")+P("有")+P("意见")

③计算联合概率的时候由于每个概率值都很小，因此取log，使相乘变相加，防止结果溢出。最后返回概率最高的结果。

缺点：时间复杂度高

代码实现：

3.维特比算法

该方法可以把上面的“找到所有组合” + “选出最好组合”合成一步，减少时间复杂度。

①根据词典中的词，以及对应的概率，创建出有向图。其中，没有出现在词典中的词，概率可以设为1e-8，以表示概率极小。为了方便计算，可以取负log

②使用动态规划方法找出从开头到最后最优的结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

30万+: 周排名

222万+: 总排名

13万+: 访问

: 等级

1143: 积分

30: 粉丝

60: 获赞

37: 评论

432: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。