一、Introduction
有关R语言对PDF词频统计的博客已很多,但有以下问题未解决:
- 对英文进行词频统计时,“a” “an” "it"等词汇无实际意义,数字的出现也会干扰词频统计。
- 未把相关代码整合成自定义函数,导致使用不方便。
二、代码
hasdigit <- function(str){
if(!is.character(str)){
stop("'str' should be character.")
}
n <- nchar(str)
for(i in 1:n){
ch <- substr(str, i, i)
if(ch>="0"&&ch<="9"){
return(T)
}
}
return(F)
}
wordstat.pdf <- function(file, lo=3, simplify=T, del_num=T){
# lo: minimum word length
# simplify: whether to delete simple words like "a", "an", "we", etc
# del_num: whether to delete numbers
if(!"pdftools" %in% .packages