对代码部分做了充分的注释,后面部分注释比较少的,看不懂去看《如何计算两个文档的相似度二》
对比于《nltk-比较英文文档相似度-完整实例》
对比于《nltk-比较英文文档相似度-完整实例》
nltk同时也能处理中文的场景,只要做如下改动:
-
使用中文分词器(如我选用了结巴分词)
-
对中文字符做编码处理,使用unicode编码方式
-
python的源码编码统一声明为 gbk
-
使用支持中文的语料库
# -*- coding: cp936 -*-
"""
原始数据,用于建立模型
"""
#缩水版的courses,实际数据的格式应该为 课程名\t课程简介\t课程详情,并已去除html等干扰因素
courses = [
u'Writing II: Rhetorical Composing',
u'Genetics and Society: A Course for Educators',
u'General Game Playing',
u'Genes and the Human Condition (From Behavior to Biotechnology)',
u'A Brief History of Humankind',
u'New Models of Business in Society',
u'Analyse Numrique p