Web信息自动/半自动抽取系统——演示系统

程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行

 

实现以下功能:

 

1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨)

 

2.自动提取模板,同时可以人工修正(提供比较方便的编辑器)

 

3.自动标注语义(仅针对产品信息页面)

 

4.自动抽取数据,输出为xml文件

 

点击进入下载页面

 

抽取系统图示:

信息抽取系统

 

模板编辑器图示:

模版编辑器图示

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值