3、自然语言处理基础——词表示

最新推荐文章于 2024-10-10 10:30:20 发布

Maker~

最新推荐文章于 2024-10-10 10:30:20 发布

阅读量417

点赞数 4

文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DQHNB/article/details/141753533

版权

大模型微调专栏收录该内容

16 篇文章 0 订阅

订阅专栏

这里写目录标题

一、词表示定义
二、语言模型
三、论文阅读

一、词表示定义

通过将我们人类的单词转化成机器能理解的意思
当计算机理解了词的意思后，希望计算机拥有以下两种能力：
1、计算词之间的相似度
在这里插入图片描述

2、推断词之间的联系
在这里插入图片描述

One-Hot Representation

将词转化成向量表示
在这里插入图片描述
可以很方便的计算两个文档之间的相似度。
但是任意两个词的向量都正交，导致任意两个词的相似度计算都为0

Represent Word by Context

通过上下文来表示一个词
在这里插入图片描述
比如starts，通过计算上下文中每个词出现的次数（重要性），通过这个频次我们可以构造向量，然后通过向量去计算任意两个词之间的相似度
但是需要存储的空间变大，并且由于有些词出现少，他的上下文也少，就导致他的向量很稀疏

Word Embedding

建立一个低维的向量空间，尝试把每一个词都学习到这个空间里面，用空间中的位置表示词。
这种低维向量是可以利用大规模数据自动学习的
eg：Word2Vec

二、语言模型

语言模型就是根据前文预测下一个词是什么

两个能力：

（1）计算多个单词连成一句话的概率，让人读起来更通顺
在这里插入图片描述

（2）根据前文的多个单词推测下一个单词
在这里插入图片描述

公式表示

在这里插入图片描述
eg：

构建语言模型

N-gram Model

eg：4-gram 即在大规模数据集中，统计已经出现的连续三个词，后面出现第四个词的概率
在这里插入图片描述
存在问题：

Neural Language Model

借助了深度学习的知识
在这里插入图片描述
1、将每个词学习到低维空间，用低维空间中的向量表示。
2、通过上下文来推断下一个词是什么
比如这里考虑了三个词，将这三个词转化为向量表示，然后组成一个更大的项链，通过 tanh激活函数，来预测下一个词是什么。

三、论文阅读

A Neural Probabilistic Language Model

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Maker~ CSDN认证博客专家 CSDN认证企业博客

码龄5年

29: 原创

2万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

552: 积分

171: 粉丝

263: 获赞

1: 评论

242: 收藏

私信

关注

热门文章

分类专栏

图像增强 10篇
目标检测 1篇

最新评论

11、论文阅读：无监督夜间图像增强：层分解与光效抑制的结合
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
10、论文阅读：基于双阶对比损失解纠缠表示的无监督水下图像增强
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
9、论文阅读：无监督的感知驱动深水下图像增强
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
7、论文阅读：20 年来的物体检测：一个调查
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
6、论文阅读：水下图像增强基准数据集及其他数据集
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。