随着获取数据技术的提高,产生了数据大量,并且快速增长。过去,人们习惯于处理包含数值的表格式数据。这种数据比较规范,而且结构清晰。但是现在出现了大量的文本数据。它们的结构就比较复杂,不太规范。这就需要我们提高自然语言处理(Natural language processing)的能力。
在R语言中,有一个名叫tidytext的程序包,它拓展了处理数据和实现可视化的功能,实现了文本分析。使用整洁数据(Tidy data),可以更加有效的分析文本数据。当我们把文本数据处理为数据框(Data frame)以后,我们就可以把整合文本分析、自然语言处理和已有的工作结合起来,分析总结数据,实现数据可视化。
接下来,就让我们从整洁文本(Tidy text)格式开始,介绍R语言中的文本分析吧。
1. 整洁文本格式
俗话说“磨刀不误砍柴工”。在分析数据和建立模型之前,往往要花很多时间整理数据。这样才能保证得出的结论有意义。这个道理在文本分析中同样正确。
所谓整洁数据包括以下的结构:
-
每一个变量占一列。
-
每一个观测值(Observation)占一行。
-
每一种观测单位(Observational unit)在一个表格中。
因此,整洁的文本就是每一行只有一个标记(Token)的表格。标记是我们要分析的文本单位,比方说一个单词。标记化(Tokenization)是将文本分割成标记的过程。可见,这种每行一个标记的结构有别于字符串或者文档等格式。
在整洁文本挖掘中,每一行存储的标记通常是一个单词,但也可以是一个句子或者一个段落。