nltk应用

最新推荐文章于 2024-07-08 16:14:38 发布

尽拣寒枝不肯栖

最新推荐文章于 2024-07-08 16:14:38 发布

阅读量2.4k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_27231343/article/details/51940599

版权

本文介绍了如何使用nltk处理中文文本，主要涉及中文分词器（结巴分词）、中文字符的unicode编码处理以及在python源码中声明gbk编码，同时提到了支持中文的语料库在nltk中的应用。

摘要由CSDN通过智能技术生成

对代码部分做了充分的注释，后面部分注释比较少的，看不懂去看《如何计算两个文档的相似度二》
对比于《nltk-比较英文文档相似度-完整实例》

nltk同时也能处理中文的场景，只要做如下改动：

使用中文分词器(如我选用了结巴分词)
对中文字符做编码处理，使用unicode编码方式
python的源码编码统一声明为 gbk
使用支持中文的语料库

# -*- coding: cp936 -*-  
"""
     原始数据，用于建立模型
"""
#缩水版的courses，实际数据的格式应该为 课程名\t课程简介\t课程详情，并已去除html等干扰因素
courses = [           
            u'Writing II: Rhetorical Composing',
            u'Genetics and Society: A Course for Educators',
            u'General Game Playing',
            u'Genes and the Human Condition (From Behavior to Biotechnology)',
            u'A Brief History of Humankind',
            u'New Models of Business in Society',
            u'Analyse Numrique p