使用数据:
DBLP公共数据集,http://dblp.uni-trier.de/ ,DBLP数据集记录了大量文献的记录,在这里我们选取ICCS(International Conference of Computational Science)会议的论文集作为应用对象。数据示例如下:
方法:
利用R语言中的文本挖掘tm包发现该论文集中的频繁词。
代码&注释:
# load tm package
library(tm)
# load RODBC package to extract data fromMySQL database
library(RODBC)
# build a connection to DB