目录
一、文本表示
1.单词表示
①onehot
举例如下:
其中,向量长度等同于词典大小。
2.句子的表示
①boolean表示
向量等同于词典的大小,如果在句子中出现了某个单词,就把对应位置置为1,不管单词出现了几次。举例如下:
②count-based表示
向量大小等同于词典的大小,如果句子多次出现,就在对应位置记录次数。举例如下:
二、单词过滤
1.过滤的词
通常会过滤掉停用词,以及出现频率极低的词。比如十万个单词中,出现了2次。
比如,类似于the, a, an等这样的词都可以过滤掉,但是需要考虑一下实际的应用场景。
2.标准化
英文中stemming,可以通过porter stemmer来实现,主要目的是把相关的词,结尾是特定形式的词,太长的词等,根据语言学的知识,进行标准化,举例如下: