基于深度学习的自然语言处理--笔记(第六章)

本文介绍了在自然语言处理中,如何利用深度学习进行文本特征构造。重点讨论了NLP分类问题的拓扑结构,包括词、文本、成对文本和上下文中的词的关系。同时,探讨了可推断的语言学特征,如词性标注和语法结构。文章还提到了核心特征与组合特征的重要性,以及n元组特征和分布特征在理解和表示词义中的作用。
摘要由CSDN通过智能技术生成

第6章 文本特征构造


前言

这种从文本数据到具体向量的映射称为“特征提取”和“特征表示”,通过“特征方程”所完成 。
决定正确的特征是使一个机器学习项目取得成功的一部分。深度神经网络减轻了对特征工程的需要,当然,核心特征还是要被定义的。尤其是对语言数据,其以一系列离散的符号形式存在,这个序列需要使用微妙的方法转换成为一个数值向量。

6.1 NLP分类问题中的拓扑结构

我们面对的都是词(word),例如"dog","pig"等等。但是因为词极少是无关出现的。对很多词来说,它们的解析依赖于其出现的上下文。

文本
文本分类问题是我们经常遇到的,比如这算文本是不是垃圾文本?描述的是政治还是反讽?是正面的、反面的还是中立的?

成对文本
也会给定一对词或文本,然后需要了解成对的信息 比如,A和B是同义词吗? A是B的一个有效的翻译吗?文本A和B是被同一个作者所写的吗?句子A的含义能否通过句子B所推断?

上下文中的词
我们需要对文本上下文中的词进行分类。
举例来说,词语 book 在句子“I want to book a flight”中 是名词、动词还是副词?词语 apple 在给定的上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值