文本预处理 文本无法直接输入到计算机内,所以需要转换成相应的数字进行表示。所以要经过以下几个步骤: 文本分词、建立词表索引、文本转化成序列 常用的分词工具:jieba、gensim、spacy、NLTK等 语言模型 常见的语言模型:马尔可夫模型,NNLM,后续延伸重点为生成词向量的word2vec以及用于文本分类以及生成词向量的fasttext,本质都是语言模型。 循环神经网络基础 基础模型的发展:RNN—LSTM—GRU;