不需编程/无需写代码的中文英文文本分析教程,免费傻瓜式,多图预警

本文档详细介绍了如何使用KHCoder进行文本预处理,无需编程知识。主要步骤包括选择数据导入方式(多个TXT文件)、设置中文界面、处理停用词。适用于处理大量中文新闻数据,但速度较慢。预处理完成后,可通过‘工具’->‘词汇’查看结果,如词汇网络和多维尺度构成。推荐下载中文停用词表以提高分析准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里讲解如何使用KH Coder。整个过程不需要编程知识。

有两种导入数据的方式,第一种是将所有的文字放到一个txt文件中;第二种是将文字放到多个txt文件中,这些文件放到一个文件夹下。因为第二种更加常见,所以这里以后者作为例子来说明。

软件下载路径请看本人这一篇哦:https://liangyihuai.blog.csdn.net/article/details/104373581
本软件默认是英文界面的,按照下图方式设置中文,重启该软件即可。
在这里插入图片描述

本人将多个中文新闻数据保存在多个txt文件中,所有的文件都在一个文件夹中。如下图所示。
在这里插入图片描述
打开其中一个,结果如下图所示。这里文字的格式不重要,只要是中文的,每一个句子不超过65535个就ok。
在这里插入图片描述
导入数据,选中txt文件所在的文件夹。
在这里插入图片描述

在这里插入图片描述
有一些词是我们必须包含进来的,因为该软件不识别某一些词,比如新冠病毒,新冠肺炎
在这里插入图片描述
不勾选形容词,副词,介词
在这里插入图片描述
设置中断词或者中断符号,比如“的”,“啊”,这些对我们文本分析是没有意义的词语。可以从文末找到下载中文中断词的下载链接。
在这里插入图片描述
在这里插入图片描述
到这里,准备工作已经做好了,我们需要执行一下预处理。
在这里插入图片描述
等了几分钟
在这里插入图片描述
接下来我们就可以看到一些美丽的漂亮的可爱的结果了。一般是在“工具”,“词汇”中,如下图,读者可以自个儿点击查看。这里我们点击“网络”。

在这里插入图片描述
下图中默认的“绘图数”是60,我把它设置为200,结果如下图。
在这里插入图片描述

在这里插入图片描述
看看多维尺度构成发,结果如下图。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

请读者自行探索其它的功能吧。更多图片还可以参考本人的上一篇文章哦 https://liangyihuai.blog.csdn.net/article/details/104373581

总结:
上面的所有操作无需编程,简单易懂;
缺点嘛,有点慢,因为这个软件是使用java语言写的。
本人一次性预处理四千个新闻数据,花了半个小时,嗯 …

中文stopwords的下载地址:https://download.csdn.net/download/liangyihuai/13994713
如果不使用stopwords的话,会影响文本分析的效果哦 😃

点个赞,关注一下呗

评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值