流程:
step1:导入文件
step2:分词
step3:去停用词
step4:tf-idf筛选
step5:卡方筛选
step6:训练预测
step1、2、3
导入文件很简单,如果路径是中文,需要注意,在Windows上需要用Unicode(path,'utf8')转换路径名称
文件中出现大量连续空格、换行符,所以使用正则匹配方法将之替换成一个空格
数字(这里暂且认为数字没有用处),中文英文标点符号,都没有用,过滤掉
也可以将他们写入停用词,然后全部一并过滤掉