NLP（一）——文本处理

秃头研究生

已于 2022-05-06 09:52:56 修改

阅读量3.5k

点赞数 5

分类专栏：跨模态检索文章标签：算法自然语言处理

于 2022-05-03 18:04:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Exception_3212536934/article/details/124442355

版权

跨模态检索专栏收录该内容

4 篇文章 2 订阅

订阅专栏

近期在阅读跨模态检索相关论文时，碰到很多处理文本的网络结构以及一些名词不是很了解，通过我的学习现在将这些知识点记录总结。本文中出现的图片来自于我学习的视频截屏：https://www.bilibili.com/video/BV1BR4y1g7LM?p=25&spm_id_from=pageDriver

目录

1、Word Segmentation（分词）

分词工具：Jieba分词（常用），SnowNLP，LTP，HanNLP。

分词的算法

1.最大匹配算法

2.考虑语义的算法

2、Spell Correction（拼写错误纠正）

3、Filtering Words

文本处理的流程

1、Word Segmentation（分词）

分词工具：Jieba分词（常用），SnowNLP，LTP，HanNLP。

当jieba本身词库中没有一些我们想要的词组的时候，他会把你原想要的词组也给拆了，比如上图中的“贪心学院”我们不想把他给拆分，这是就可以用“jieba.add_word(“贪心学院”)”语句把我们不想分割的词组添加进去。

分词的算法

1.最大匹配算法

1）前向最大匹配（forward-max matching）

先定义一个max_len最大的滑动长度，上图中例子定义为5，然后再例句中以5为单位进行选择词组，然后将这个词组依次和词典中的词语进行匹配，匹配一致的时候进行分割，就这样一致循环到句子结束。

2）后向最大匹配（backward-max matching）

后向匹配和前向匹配的过程类似，前向匹配从前到后，那后向匹配就是从后到前，算法过程和前向匹配差不多，不再赘述。

最大匹配算法的缺点：最大匹配算法是贪心的，只能达到局部最优；效率和时间复杂度取决于max_len，算法只能看到单词，不能考虑语义。

2.考虑语义的算法

算法思路：输入一个句子，生成所有可能的分割，然后利用“工具”选择其中一个最好的。其中在NLP中这个工具最经典的就是Language Model（语言模型）。

Language Model：可以计算出每个分割的概率，返回概率最大的那一项。概率具体计算过程：统计每个单词出现的频率，然后根据独立得出每个单词的概率，然后再相乘。下图为举的例子。

上图中的概率相乘会出现一个问题，如果每个概率都很小，相乘会越来越小，会超出double或者float型的范围，产生溢出问题。为了解决这个问题，在概率前取log即可，让乘法变加法，如下图：

算法缺点：复杂度太高。

解决办法：维特比算法

取-log是因为习惯性的找最小，每一条路径是分词的路径，想要的路径是路径之和最小的那个路径。

下面问题就转换为解决最短路径的问题，核心是动态规划，即是把一个大的问题拆分为若干个小的子问题。采用一个一维数组把每个节点的数值存进去，这样避免重复计算，需要哪个节点的值直接取出来即可，这样大大减少了复杂度。

2、Spell Correction（拼写错误纠正）

在词典中进行循环，找出与输入的编辑距离最小的单词。根据动态规划算法计算出编辑距离：

上图中在词典中循环的方法时间复杂度很高，另一个新的方法可以解决这个问题：用户输入单词后，生成与此单词编辑距离为1和2的字符串，然后通过条件过滤，最后选择出最合适的字符串。

3、Filtering Words

把停用词以及出现频率很低的词汇过滤掉。

Stemming：one way to normalize，但是此方法并不能保证把单词转换为有效的原型，比如fly和flies可能转换为fli。

秃头研究生

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

秃头研究生 CSDN认证博客专家 CSDN认证企业博客

码龄6年

26: 原创

10万+: 周排名

43万+: 总排名

9万+: 访问

: 等级

402: 积分

61: 粉丝

82: 获赞

12: 评论

570: 收藏

私信

关注

热门文章

分类专栏

最新评论

NLP（二）——文本表示
偶尔躲躲乌云_Asterial: 宝，word embeddings是词嵌入的意思，词向量指的是词的向量，例如 onehot 的编码编出来的那玩意也叫词向量
PyCharm中DataFrame对象类不出代码提示
王凯宁: 太强了，真的可以，不知道啥原因
模式识别作业-线性分类器设计总结
该同学没有id: 请问同学有青岛大学模式识别的鸢尾花数据集吗？他是四类的，我没找到
强化学习--DDPG算法
柏某: 我看到那个论文上写到是select action at = μ（st|θμ）+Nt ，according to the current policy and exploration noise，不过这里应该也差不多吧
强化学习--DDPG算法
橘子皮303: 这个随机选择动作指的是添加一个随机噪声之后确定的动作变得随机吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。