1. 文件读取和查看
DirSource()
Corpus()
inspect()
tm 提供五种资源读取的方式:
> getSources()
[1] "DataframeSource" "DirSource" "URISource" "VectorSource" "XMLSource"
[1] "DataframeSource" "DirSource" "URISource" "VectorSource" "XMLSource"
仅就.txt文件而言,学习初期常用的是直接从文件夹中读取:
DirSource()
DirSource()
读取文件夹下所有文件的路径,然后用
Corpus()
读取所有文件路径和路径下的内容,并构造语料库。
Corpus()
的结果是建立一个类似于matrix的Corpus集合,一个文件名对应一个文档内容,可用下标对文件进行查看。
Corpus()
赋值给一个变量以后,比如赋值给“docs”,输入
docs
或者
docs[1]
这种subset模式无法直接查看文档内容,必须要用到
inspect()
函数进行文本查看。
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
-+-
2. 语料库的预处