NLP-文本表示/单词过滤

本文探讨了文本表示的方法,包括onehot编码、布尔表示和计数表示,并详细解释了如何通过这些方法将单词和句子转化为计算机可理解的形式。同时,介绍了单词过滤的策略,如去除停用词和低频词,以及标准化过程,如英文stemming。这些技术对于信息处理和自然语言理解至关重要。
摘要由CSDN通过智能技术生成

目录

一、文本表示

1.单词表示

①onehot

2.句子的表示

①boolean表示

②count-based表示

二、单词过滤

1.过滤的词

2.标准化


一、文本表示

1.单词表示

①onehot

举例如下:

其中,向量长度等同于词典大小。

2.句子的表示

①boolean表示

向量等同于词典的大小,如果在句子中出现了某个单词,就把对应位置置为1,不管单词出现了几次。举例如下:

②count-based表示

向量大小等同于词典的大小,如果句子多次出现,就在对应位置记录次数。举例如下:

二、单词过滤

1.过滤的词

通常会过滤掉停用词,以及出现频率极低的词。比如十万个单词中,出现了2次。

比如,类似于the, a, an等这样的词都可以过滤掉,但是需要考虑一下实际的应用场景。

2.标准化

英文中stemming,可以通过porter stemmer来实现,主要目的是把相关的词,结尾是特定形式的词,太长的词等,根据语言学的知识,进行标准化,举例如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值