Python使用jieba分词并用weka进行文本分类

最新推荐文章于 2022-12-21 18:27:50 发布

一颗青春痘

最新推荐文章于 2022-12-21 18:27:50 发布

阅读量2k

点赞数

分类专栏：学习笔记文章标签： python weka-jieba

本文链接：https://blog.csdn.net/guohuiji/article/details/73331282

版权

本文档详细介绍了如何利用Python的jieba库进行中文分词，然后结合weka工具进行文本分类。首先，安装了pycharm、Python和pip，接着安装jieba并进行自定义词典与停词表的设置。通过代码实现将分词结果写入文件，再转换为weka可读的.arff格式。最后，在weka环境中，应用StringToWordVector过滤器并使用J48或随机森林算法进行分类。

摘要由CSDN通过智能技术生成

一、安装pycharm
二、安装Python
三、在Python下安装pip，如下图所示，pip安装成功
这里写图片描述
四、在python下安装jieba：

如下图所示，jieba安装成功：

五、在pycharm中新建Python项目，对test.txt文件中的中文进行分词，并写入testResult.txt文件中，具体代码如下：

#!/usr/bin/env Python
# coding=utf-8
import jieba.analyse
import jieba
import jieba.posseg as pseg
import sys
reload(sys)
sys.setdefaultencoding( "utf