信息抽取
laoyaotask
Vue,PHP,Python,Office
展开
-
利用Gate进行中文信息抽取时 不能识别Token.string=="中文"的问题
由于项目开发的需要 近几个月来一直在研究基于Gate的中文信息抽取,偶然发现在Jape中书写的Token.string=="中文" 、Token.kind==number等语句无法被系统识别的问题,后经不断尝试,发现只要在程序中加入Gate自有的ANNIE English Tokeniser 组件,上述问题就解决了。查看了此组件对应的两个文件后发现,其代码较复杂,大致原理应该还是编码的统一。原创 2013-06-08 10:21:33 · 1506 阅读 · 0 评论 -
java GUI调用信息抽取工具Gate的方法
几个月前,尝试在JavaWeb项目中调用Gate API(关于Gate点这里了解更多),在那里其安装配置很简单,根据官方手册很快可以搞定。由于项目需求的变,现在要把项目改为桌面版,所以又要考虑在Java GUI中调用 Gate API的问题。根据官方手册完全行不通,各种报错,谷歌上可参考的内容也极少,我甚至还给开发人员发邮件询问,也没得到回复,相当吭爹,浪费老汗整整24小时的时间! 后来根据前原创 2013-11-08 00:06:49 · 2993 阅读 · 0 评论 -
从CRF测试结果中提取出连续的标注行
现在在处理一批CRF标注的语料,需要将测试结果中标为B、I的行提取出来,对于连续的B、I标注行,要在一起抽出。如有以下测试语料标注结果(片断): a a1 a2 O b b1 b2 B c c1 c2 I d d1 d2 I e e1 e2 O f f1 f2 B 从中将b、c两行合在一起抽出,f行要单独抽取,目标结果格式如下: [[[原创 2015-07-15 22:25:02 · 1437 阅读 · 0 评论