【NLP自然语言处理学习笔记01：文本的表示】

努力学习的哇塞妹妹‍

已于 2023-07-12 10:40:44 修改

阅读量62

点赞数

分类专栏： NLP自然语言处理文章标签：自然语言处理学习笔记

于 2023-06-27 11:28:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CrazyDog_JJ/article/details/131404882

版权

NLP自然语言处理专栏收录该内容

7 篇文章 1 订阅

订阅专栏

文本的表示

词表示法
- （一）one-hot方法
- （二）词向量
句子表示方法
求相似度方法：
- （一）欧氏距离
- （二）余弦相似度（考虑了向量的方向）

词表示法

（一）one-hot方法

出现设置为1，未出现设为0
向量长度=词典大小

（二）词向量

one-hot方法无法实现求词之间的相似度
这里引入一种新方法：分布式表示方法（distribute representation），该方法特点：
（1）长度不依赖词典长度
（2）每个词都有一个非0的数值
（3）解决了one-hot方法中稀疏性（sparsity）的问题

词向量（word to vector）就是一种分布式表示方法
我们需要定义它的维度，通过训练深度学习的模型（skip- gram、Glove、CBow…）可以帮助我们训练出词向量；【后续笔记会整理这几种具体的模型】
词向量笔记

句子表示方法

（一）boolean方法：

未出现的词对应位置设为0，出现设为1

（二）count 方法（考虑了词的频率）：

（要记录出现的频率）未出现的词对应位置设为0，出现设为出现的频数

（三）TF-IDF（考虑了词的重要性）

TF-IDF的核心思想

并不是出现的越多就越重要；并不是出现的越少就越不重要

TF-IDF是什么

TF（Term Frequency，词频）：表示一个给定词语w在一篇给定文档d中出现的频率
IDF（Inverse Document Frequency，逆向文件频率）：log(N/N(w))
N：语料库中文档总数
N(w):词语w出现在多少文档中

在这里插入图片描述

求相似度方法：

（一）欧氏距离

d=｜s1 - s2｜
距离越小，相似度越大

（二）余弦相似度（考虑了向量的方向）

d=s1·s2 / |s1| |s2|
d越大，相似度越大

努力学习的哇塞妹妹‍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【NLP自然语言处理学习笔记01：文本的表示】

我们需要定义它的维度，通过训练深度学习的模型（skip- gram、Glove、CBow…IDF（Inverse Document Frequency，逆向文件频率）：log(N/N(w))TF（Term Frequency，词频）：表示一个给定词语w在一篇给定文档d中出现的频率。（要记录出现的频率）未出现的词对应位置设为0，出现设为出现的频数。（3）解决了one-hot方法中稀疏性（sparsity）的问题。并不是出现的越多就越重要；未出现的词对应位置设为0，出现设为1。出现设置为1，未出现设为0。
复制链接

扫一扫

专栏目录

努力学习的哇塞妹妹‍ CSDN认证博客专家 CSDN认证企业博客

码龄4年

17: 原创

136万+: 周排名

187万+: 总排名

5803: 访问

: 等级

179: 积分

2: 粉丝

5: 获赞

8: 评论

18: 收藏

私信

关注

热门文章

分类专栏

最新评论

【机器学习03---SVM支持向量机(KKT,Dual)】
weixin_45443438: 公式推导好详细，终于看懂了！
【NLP自然语言处理学习笔记03attention(含莫烦代码解析)】
CSDN-Ada助手: 恭喜您写了第8篇博客！标题为“【NLP自然语言处理学习笔记03句向量】”真是精彩！您的博客内容一直都很有价值，对于我们这些对NLP感兴趣的读者来说，是一份宝贵的学习资料。希望您能继续保持创作的热情，分享更多关于NLP的知识和经验。如果可以的话，我希望您在下一篇博客中能够深入探讨一些实际应用中的问题，如何将句向量应用到文本分类或情感分析等任务中。谦虚地说，我相信您一定能给我们带来更多的启发和帮助。期待您的下一篇精彩博文！
【NLP自然语言处理学习笔记05attention】
CSDN-Ada助手: 恭喜作者撰写第9篇博客！标题中的"attention"一词引起了我的兴趣。正如您所提到的NLP自然语言处理学习笔记，我很期待了解更多关于attention的内容。在下一步的创作中，或许您可以深入探讨attention在不同NLP任务中的应用，或者分享一些实际案例和应用场景。谦虚地说，我相信您的深入解读能够给读者带来更多的启发和学习价值。期待您的下一篇博客！
【NLP自然语言处理学习笔记06 attention is all you need理论+pytorch版代码理解】
CSDN-Ada助手: 恭喜您写了第10篇博客！标题看起来非常吸引人，我很期待阅读您关于NLP自然语言处理学习笔记的内容。通过学习self-attention is all you need理论并结合pytorch版代码的解读，您一定对这个领域的知识有了更深入的理解。我希望您能在博客中分享自己的见解和思考，这样读者们可以从您的经验中受益。同时，对于下一步的创作建议，我建议您可以探索一些实际应用场景，如文本分类、机器翻译等，从而将所学的理论更好地应用到实际情境中。期待您的新作品！
【python学习笔记之字典的用法】
CSDN-Ada助手: 恭喜您完成了第11篇博客，题为“【python学习笔记之字典的用法】”。从标题来看，我预计您探讨了Python中字典的使用方法。这是一个非常重要且实用的主题，我相信您的博客一定能为初学者提供宝贵的帮助和指导。在下一步的创作中，我建议您可以继续深入探讨字典的高级用法，如字典的嵌套、字典的遍历以及字典的常见应用场景等。此外，您也可以考虑与其他数据结构进行对比，以帮助读者更好地理解字典的特点和优势。希望我的建议对您有所帮助。再次恭喜您取得的成就，并期待您未来更多精彩的博客！请继续保持谦虚的态度，为读者们带来更多有价值的内容。祝愿您在创作道路上越走越远！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。