一、练习目标
1、掌握结巴分词,增加不在jieba的新词,剔除停用词,分词后只保留词性为n的词;
2、利用Counter函数统计文档的词语频次;
3、安装wordcloud,制作词云图。
二、步骤与代码
#********* 步骤一 ********#
#获取当前路径
import os
cwd=os.getcwd()
Data_Folder=cwd+'\Demo5Files'
#走访文件
from os import walk
from os.path import join
file_list=[]
for root,dirs,files in walk(Data_Folder):
for file in files:
file=join(root,file)
file_list.append(file)
#读取文档内容
import codecs
all_news=[]
category=[]
for file in file_list:
with codecs.open(file,'r',enc