本文主要以R语言中的readtext、jiebaR、dplyr包为例,介绍如何对pdf文档进行导入、分词与词频统计。
使用“十四五”文化和旅游发展规划 的pdf文档作为演示文本数据,数据可在网上自行下载,或使用其他pdf文档替代。在数据处理的过程中,主要用到readtext包导入数据,jiebaR包进行分词,dplyr包进行词频统计。readtext() 函数返回一个数据框,其中doc_id为文件名称,text为文本内容,即需要进行分词的文本数据。
setwd("C:\\Users\\Acer\\Desktop")
#install.packages("readtext")
#install.packages("jiebaR")