一、文本预处理
文本可以看作是字符或单词的一种序列数据。对文本的预处理包括:
1.读入文本
2.分词:对每个句子进行分词,将句子划分成若干个词(token),转换为一个词的序列。现有的分词工具有:spaCy和NLTK。
3.建立字典:每个词映射到一个唯一的索引(index),从而将字符串转换为数字。
4.将文本从词的序列转换为索引(数字)的序列,方便输入模型
二、语言模型
一段自然语言文本可以看作是一个离散时间序列,语言模型的目标就是评估该序列是否合理,即计算该语言序列的概率。
给定一个长度为T的词的序列 w 1 , w 2 , . . . , w T w_1,w_2,...,w_T w1,w2,...,wT,序列的概率表示为 P ( w 1 , w 2 , . . . , w T ) . P(w_1,w_2,...,w_T). P(w1,w2,...,