deepdive抽取实体

deepdive抽取

1 修改db.url路径 改为自己的数据库名

2 deepdive load articles input/hm.tsv 导入数据文件

3 deepdive do (app.ddlog中定义的函数)如articles、sentences,每一步后可在数据库中查看是否成功

4 若需要先清空表中数据 postgres命令 truncate table articles; 否则 重复deepdive导入会增加数据,不会擦除之前的

导入nlp工具后,sbt/sbt stage生效,在parser下./run.sh -p 8080,后在postman软件中发送一段中文,测试nlp工具是否生效。

deepdive默认python2环境,在Python3中抽取sentences,调用nlp_markup.py时会报 找不到dd文件。

image-20200911093743769 image-20200911093758537

解决方法是在py文件首部指定Python2

  • 报错 OutOfMemoryError,修改udf/bazzar/parser/run.sh -Xmx4g为 -Xmx2g,使用最大2gRAM
  • do sentences后“wq”保存至数据库,显示run/finished表明成功。可以再数据库中select * from sentences;来查看。
image-20200916161418590

调用nlp工具后发现,抽取的实体粒度较小,另外deepdive定义关系的类型比较单一,考虑可以分为属性关系和自定义关系两类。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值