受http://yixuan.cos.name/cn/2011/03/text-mining-of-song-poems/这篇文章的启发,觉得PYTHON来做文字处理分析应该不错,可以来做个词频分析,分析聊天记录可以看出每个人的说话习惯
用的是暴力方法 不用语义分析 直接列出所有出现的字词
做下来觉得难点就在中文编码这部分 python下中文涉及的编码转化确实要琢磨一番
首先数据文件要存为utf-8格式
在python显示中文的关键代码:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
txt.encode('gb18030')
txt为中文字符串
搜索中文,用正则表达式匹配:
r = re.compile('[\x80-\xff]+')
m = r.findall(txt)
字典排序,按照value排序,代码很精简:
dict=sorted(dict.items(), key=lambda d:d[1])
代码:
#coding=utf-8
#Author: http://blog.csdn.net/boksic
import