Laboratory for Web Algorihmics数据集格式转换
Gemini:step1+step2+step4+step5
WebGraph:step1+step2+step3
Gemini要求数据集以bin格式输入,而从LWA下载的数据用WebGraph压缩过,需要特定的解压方法才能满足不同系统的需求。
以下以clueweb12为例说明转换过程:
注:data_sbb为存放数据的文件夹名。
step1:配置WebGraph
注:配置WebGraph这一步,嫌麻烦可以直接从node145的/home/sbb/test01下拷贝lib文件夹到data_sbb目录下,注意要装jdk,不嫌烦就往下走
在data_sbb目录下载WebGraph和相应依赖包:
wget http://search.maven.org/remotecontent?filepath=it/unimi/dsi/webgraph/3.5.2/webgraph-3.5.2.jar
wget http://webgraph.di.unimi.it/webgraph-deps.tar.gz
在下载的同一目录下新建lib文件夹,将解压后的WebGraph和WebGraph-deps的jar包放在lib下:
mkdir lib
cd lib
cp
在data_sbb目录下测试是否安装成功:
java -cp "lib/*" it.unimi.dsi.webgraph.ArcListASCIIGraph --help
如果没装jdk,在这里看centos安装jdk的步骤
step2:从LWA下载数据集
下载.graph和.properties到data_sbb
wget http://data.law.di.unimi.it/webdata/clueweb12/clueweb12.graph
wget http://data.law.di.unimi.it/webdata/clueweb12/clu