一、文本标识 单词的标识 给定一个构建好的词典库,在词典库基础之上,使用One-hot编码:出现单词的地方标1,没出现的单词标0 句子的表示 基于0/1:先对巨资进行分词,然后对句子使用One-hot编码。不统计出现的次数,出现就标1 基于计数:统计分词之后单词在词典库中出现的次数 二、计算相似度 句子用向量表示出来之后,就可以套用数学公式,向量是有方向的。 欧氏距离:欧几里得距离。结果越小越好,说明二者在坐标图上接近。但是没有考虑方向 余弦相似度:最