在分词中需要一个重要的库-jieba。在最开始导入jieba.
第一步:读取我们所需要的文件
第二步:采用lcut进行精确分词,得到一个列表
第三步:取停用词(可采用百度停用词列表)。首先去掉长度为一的词,在让其它词遍历一遍停用词,如果该词不在停用词里则存为字典的键,在之后改词在出现则改键的词频加一,既可完成了词频统计。
在分词中需要一个重要的库-jieba。在最开始导入jieba.
第一步:读取我们所需要的文件
第二步:采用lcut进行精确分词,得到一个列表
第三步:取停用词(可采用百度停用词列表)。首先去掉长度为一的词,在让其它词遍历一遍停用词,如果该词不在停用词里则存为字典的键,在之后改词在出现则改键的词频加一,既可完成了词频统计。