R的rainette包是对文本数据进行探索性聚类可视化分析的包,其中的rainette_explor()函数可直接输出可用具交互使用的聚类可视化探索应用,下面介绍如何使用该包中的函数进行文本聚类分析,程序如下所示:
library(quanteda);library(rainette)
## 对英文新闻数据进行聚类分析,并进行可视化
load("data/chap9/bbcdf.RData")
## 使用quanteda进行数据准备,对预处理后的文本构建语料库
bbc_cp <- corpus(bbcdf$text)
## 创造文档特征矩阵,并进行修剪
dtm <- dfm(bbc_cp)
dtm <- dfm_trim(dtm, min_termfreq = 20)
res <- rainette(dtm, k = 15, # 聚类的最大数目
min_uc_size = 15) # 每类最少文件数量
## 通过shiny应用的来可视化聚类分析结果
rainette_explor(res, dtm)
获得的结果如下所示: