自然语言处理

薪忆

于 2024-04-15 20:57:46 发布

阅读量836

点赞数 12

文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sxhb642/article/details/137795235

版权

1.NLP

1.NLP 全称是 Natural Language Processing，即自然语言处理。

编码图像taken

2.基本操作

我们将文本句子切分成一个个子单元，然后将子单元数值化(映射成向量)，接着将这些向量输入到模型进行编码，最后输出到下游任务中进一步得到最终结果。

也就是说自然语言处理就是把文字让机器读懂再做出反应

3.Tokenization（分词）

在自然语言处理(NLP)的任务中是最基本的一步

Tokenization其实是为数值化作准备，数值化是为了能够使用神经网络数值化的过程必然需要映射，而映射又需要一个目标集合或者说映射表。一种做法是将大量的低频子单元使用几个特定的符号（例如，[UNK]）代替，这样便缩小了映射表了，但是这样一来我们原始文本就损失了很多信息了。而且切割出来的内容和效果也不尽人意，找了两个列子比如说【unhappily】如果切分成了【un, happ, ily】显然要比【unh ap pily】要合理得多。因为【un, happ, ily】中每一个子单元都有一定的含义，而后者不然。然后就是【武汉市长江大桥】，可以拆分成【武汉市长江大桥】，也可以拆分成【武汉市长江大桥】显然后一个比前一个在语境的理解更好。

也就是说Tokenization的难点便是——如何获得理想的切分，使文本中所有的token都具有正确的语义，并且不会存在遗漏

4.分类

有word子粒度，char字符粒度，subword（子词）粒度这三类Tokenization方法

4.1word子粒度

比如I loveyou可以拆分成[I,love,you],

我爱苹果树可以拆分成【我，爱，苹果树】

能够很好地保留词的语义和边界信息。

基于词表和规则的分词方法可以分为3种：

1. 前（后）向最大匹配法；

2. 最短路径分词法；

3. 基于N-Gram LM的统计词频分词法（考虑了不同词语之间先后出现的概率）。

3. 字粒度Tokenization

字粒度又称字符粒度，它是按某一种语言最小符号来进行切分的。字符粒度最早应该是2015年Karpathy提出，简单说英文(拉丁语系)就是以字母为单位，

中文日文韩文等就是以字为单位进行切分。

我爱苹果树拆分成【我,爱,苹,果,树】，拆分的太细，不适用实际

4. subword(子词)粒度的Tokenization

关注

12
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理

一种做法是将大量的低频子单元使用几个特定的符号（例如，[UNK]）代替，这样便缩小了映射表了，但是这样一来我们原始文本就损失了很多信息了。然后就是【武汉市长江大桥】，可以拆分成【武汉市长江大桥】，也可以拆分成【武汉市长江大桥】显然后一个比前一个在语境的理解更好。也就是说Tokenization的难点便是——如何获得理想的切分，使文本中所有的token都具有正确的语义，并且不会存在遗漏。我爱苹果树拆分成【我,爱,苹,果,树】，拆分的太细，不适用实际。我爱苹果树可以拆分成【我，爱，苹果树】
复制链接

扫一扫

薪忆 CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

155万+: 周排名

18万+: 总排名

1812: 访问

: 等级

57: 积分

28: 粉丝

27: 获赞

1: 评论

21: 收藏

私信

关注

热门文章

最新评论

自然语言处理
CSDN-Ada助手: 非常棒的博文！你对自然语言处理的理解很深刻。不仅仅是简单地介绍了Tokenization的概念，还展示了在实际处理中的一些具体应用和挑战。除了Tokenization，你可能也会对词嵌入（Word Embedding）感兴趣。词嵌入是将词语映射到高维空间中的向量表示，可以帮助模型更好地理解语义和上下文关系。希望你可以继续分享更多关于自然语言处理领域的知识和经验，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数学建模----预测类模型--神经网络预测
CSDN-Ada助手: 恭喜您发布了第三篇博客！标题“数学建模----预测类模型--神经网络预测”听起来非常专业和引人注目。神经网络预测是一个非常有趣和前沿的领域，您的研究和分享一定会受到很多人的欢迎。我希望您能继续坚持创作，不断完善自己的技术和知识，也可以考虑扩展一些其他类型的预测模型，让读者能够更全面地了解不同的方法和应用场景。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
selenium爬取数据闪退
CSDN-Ada助手: 恭喜你开始了博客创作！对于selenium爬取数据闪退的问题，建议你可以尝试检查代码中可能引起闪退的部分，或者查阅相关文档和论坛，寻找解决方案。同时，也希望你能在博客中分享更多关于selenium爬取数据的经验和技巧，让更多人受益。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。