nltk应用

本文介绍了如何使用nltk处理中文文本,主要涉及中文分词器(结巴分词)、中文字符的unicode编码处理以及在python源码中声明gbk编码,同时提到了支持中文的语料库在nltk中的应用。
摘要由CSDN通过智能技术生成
对代码部分做了充分的注释,后面部分注释比较少的,看不懂去看《如何计算两个文档的相似度二》
对比于《nltk-比较英文文档相似度-完整实例》

nltk同时也能处理中文的场景,只要做如下改动:

  1. 使用中文分词器(如我选用了结巴分词)

  2. 对中文字符做编码处理,使用unicode编码方式

  3. python的源码编码统一声明为 gbk

  4. 使用支持中文的语料库

# -*- coding: cp936 -*-  
"""
     原始数据,用于建立模型
"""
#缩水版的courses,实际数据的格式应该为 课程名\t课程简介\t课程详情,并已去除html等干扰因素
courses = [           
            u'Writing II: Rhetorical Composing',
            u'Genetics and Society: A Course for Educators',
            u'General Game Playing',
            u'Genes and the Human Condition (From Behavior to Biotechnology)',
            u'A Brief History of Humankind',
            u'New Models of Business in Society',
            u'Analyse Numrique p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值