DeepDive简介:
DeepDive是一个混乱数据中抽取有效数据的系统。混乱的数据包括混合在文本、表格和图片等中的非结构化数据而难以被软件处理。DeepDive帮助从非结构化数据中抽取数据并整合到已有的结构化数据库中。DeepDive被用来抽取数据实体中的复杂关系并且推断出他们之间的联系。数据被抽取到数据库中后,大家就可以使用一系列常用工具,例如Tablaeu和Excel等可视化分析工具进行数据处理。
1.安装包下载:
github上的官方下载地址(需要翻墙,不然太慢了):
https://github.com/HazyResearch/deepdive/releases
openkg.cn上的下载地址(百度网盘的形式,也慢哪,不过可以用速盘下载):
http://openkg.cn/tool/cn-deepdive
速盘下载地址(用这个解析百度云盘下载地址,会快很多):
https://www.speedpan.com
2.Linux上安装(以openkg.cn上的CNdeepdive.zip为例):
1.下载CNdeepdive.zip安装包,解压后进入文件夹
解压后会有CNdeepdive和__MACOSX两个文件夹
unzip CNdeepdive.zip -d 解压到的地址
2.进入CNdeepdive,执行 ./install.sh
(需要翻墙,否则会报错Failed to connect to xxx)
这里选择1,一键安装
会发现报错:
通过网上查找原因,发现是install.sh文件中有错误,需要修改
vim打开install.sh文件
命令模式下输入/tar xzvf
匹配到该字符串处,按回车键跳转到该处,将其修改为
/tar xvf
(如下图所示)其它保持不变
再次执行./install.sh
如果报错xx源中找不到xx,可以更新源解决
3.配置环境变量
deepdive的可执行文件一般安装在~/local/bin文件夹下。
执行vim ~/.bashrc 在~/.bashrc下添加如下:
export PATH="/root/local/bin:$PATH"
然后执行 source ~/.bashrc 更新环境变量,使其生效
========================================================
另一种安装方式:
执行bash <(curl -fsSL git.io/getdeepdive)
可能也会报错,查找相应原因解决即可。
3.安装postgresql:
简介:PostgreSQL 是一个免费的对象-关系数据库服务器(数据库管理系统)
为什么以postgre作为关系数据库,仅仅是因为deepdive官方文档中推荐(说明其他类型的数据库也是支持的,我们就暂时别去折腾其它的了)
执行:bash <(curl -fsSL git.io/getdeepdive) postgres
也可以手动安装,相关安装及配置使用见:
https://www.cnblogs.com/ae6623/p/6149375.html
之后每次记得使用systemctl start postgresql
启动数据库
建议安装该数据库的图形管理工具pgadmin3,这样在管理数据库时更加便捷:
sudo apt install pgadmin3
在数据库安装完成后,需要在本地postgresql中为项⽬建⽴数据库,再在项⽬⽂件夹下建⽴数据库配置⽂件:
找到db.url文件所在的文件目录,命令行输入
echo "postgresql://$USER@$HOSTNAME:5432/db_name" >db.url
$USER:数据库用户名
$HOSTNAME:本地就是localhost
db_name:库名
例如:
该界面为图形管理工具pgadmin3
对应db.url中就是:
postgresql://postgres@localhost:5432/exampledb
4.nlp环境配置:
简介:NLP是自然语言处理的开发环境,在python中有相应的nltk包
在CNdeepdive目录下,运行nlp_setup.sh即可 : ./nlp_setup.sh
5.测试:
可以使用http://www.openkg.cn网站所给的实验:
http://openkg1.oss-cn-beijing.aliyuncs.com/478e0087-8dd6-417c-9a49-4ce12f5ec22c/tutorial.pdf
或者使用官方所给的实验:
http://deepdive.stanford.edu/example-spouse#1-2-adding-nlp-markups