NLP基础内容

NNNNwang

已于 2023-11-01 16:32:07 修改

阅读量75

点赞数

文章标签： 1024程序员节

于 2023-10-24 11:49:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62525850/article/details/134008841

版权

本文介绍了自然语言处理中的关键概念，如token（文本单元）、tokenization（分词）、embedding（词向量表示）和encoding（编码为向量）。着重讲解了词嵌入（word2vec和GloVe）以及onehot编码，并提及了搜索算法beamsearch在上下文中的应用。

摘要由CSDN通过智能技术生成

token：Token 可以被理解为文本中的最小单位。在英文中，一个 token 可以是一个单词，也可以是一个标点符号。在中文中，通常以字或词作为 token。ChatGPT 将输入文本拆分成一个个 token，使模型能够对其进行处理和理解

tokenlization：将文本转化为token的过程

embedding：一个用来表示token的稠密的向量。token本身不可计算，需要将其映射到一个连续向量空间，才可以进行后续运算，这个映射的结果就是该token对应的embedding。

encoding：表示编码的过程。将一个句子，浓缩成为一个稠密向量，也称为表征，（representation），这个向量可以用于后续计算，用来表示该句子在连续向量空间中的一个点。理想的encoding能使语义相似的句子被映射到相近的空间。

“encoding”（编码）通常指的是将输入数据转换为低维度、紧凑表示的过程。这种编码通常用于降维、特征提取、特征表示等任务，旨在从高维度的输入数据中提取有用的特征，并将其转换为更简洁、更可表达的形式

tokens --> vectore ：通过word-embedding或one hot编码

word-embedding: 词嵌入的目标是将文本中的单词表示成一组连续的向量，使得具有相似语义的单词在向量空间中的距离较近，而语义不相似的单词在向量空间中的距离较远。

常用词嵌入方法：word2vec，GloVe（Global Vectors for Word Representation）

one hot：就是最简单的0-1映射

beam search ：如何通俗的理解beam search？ - 知乎 (zhihu.com)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

NNNNwang CSDN认证博客专家 CSDN认证企业博客

码龄3年

36: 原创

112万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

385: 积分

11: 粉丝

15: 获赞

9: 评论

31: 收藏

私信

关注

热门文章

分类专栏

NLP读论文 2篇
动态规划 4篇
pytorch学习 3篇
leetcode 5篇
人工智能 1篇
蓝桥杯 10篇
计算机网络 1篇
学习记录 5篇
并查集 1篇
搜索 2篇
模拟 2篇
枚举 2篇
公式规律 1篇

最新评论

蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
2301_80207550: 哥，你的思路我用C语言实现了一下，能得40分，但我不知道你这个思路的原理是什么，能具体讲一下吗？ #include<stdio.h> #include<math.h> int gcd(int a,int b){ return b?gcd(b,a%b):a; } int max(int a,int b){ if(a>b){ return a; } else{ return b; } } int min(int a,int b){ if(a<b){ return a; } else{ return b; } } int main(){ int a,b; scanf("%d %d",&a,&b); int t=abs(a-b); int i,k; if(t<a&&t<b){ for(i=1;;i++){ if(t*i>max(a,b)){ break; } } k=t*i-max(a,b); } else if(t>min(a,b)&&t<max(a,b)){ k=t-min(a,b); } printf("%d",k); }
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
Bowser_H: 最大公约数（公因数），最小公倍数，看这篇文章给我人都看迷糊了
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
大爷的溜溜球: 规定了输出的是正整数
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
NNNNwang: （21+k,100+k)的最大公约数为79。例如当k=58时，(21+58,100+58)的最大公约数为79
蓝桥杯题目 2682: 蓝桥杯2022年第十三届省赛真题-GCD
逐梦556: 作者这个程序运行，输入结果6和9的话，输出是3，我想知道为什么呀，9和12的最大公约数和6和9的最大公约数不都是3吗，那么输出不应该是0吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。