title: 情感分类–中文语料
data: 2017-03-04
tags: NLTK
折腾了几天终于上午用nltk实现了中文语料的分类。把整个流程记录一下。
中文语料
用的是谭松波老师的酒店分类的语料库,有四个版本:2000(balanced)、4000(balanced)、6000(balanced)、10000(unbalanced)。语料库结构如下:
-ChnSentiCorp_htl_ba_2000
|-neg
|-neg.0.txt ~ neg.999.txt
|-pos
|-pos.0.txt ~ pos.999.txt
编码格式和中文分词
因为该语料库编码格式为GB2312,为了后续在python和nltk中好处理,将其转化为UTF-8编码格式,使用了一个转码的小工具GB2312<–>UTF-8 。统一转码之后,将进行中文分词,使用jiaba。
import glob
import jieba
i=0;
for file in glob.glob(r"C:\Users\rumusan\Desktop\ChnSentiCorp_htl_ba_2000\pos\*.txt"):
with open(file,