最近,闭门在家,捡起了之前没看完的文本分析的书。这里分享一下书里面的例子。
首先我们需要有一个数据集,这里我们使用Jane Austen的六本小说作为分析材料,这六本小说可以从janeaustenr这个包里面得到
## install.packages("janeaustenr")
library(janeaustenr)
## install.packages("tidytext")
library(tidytext)
这个包里有六本简奥斯丁的书,
original_books <- austen_books()%>%
group_by(book)%>%
mutate(line = row_number(),
chapter = cumsum(str_detect(text,
regex("^chapter [\\divxlc]",
ignore_case = TRUE)))) %>%
ungroup()
original_books
数据集中有三栏,其中text和book是本来就有的,而line是我们后加的。在数据处理过程中,我们一般先将文本一行一行的读入R,这里的行是由原文件格式决定的,我们可以看到第一行其实是书名,第二行是空格,这是由于原文件中是这样的。这里我们增加了一列line,里面是行号,等会我们