nutch怎样过滤spam信息。

主  题: nutch怎样过滤spam信息。
作  者: kauu (kauu)
等  级: 
信 誉 值: 100
所属论坛: 专题开发/技术/项目 搜索引擎技术
问题点数: 20
回复次数: 4
发表时间: 2006-12-14 21:15:22
   
 
   

比如用自带的parseHtml可以提取出html的信息,可是里面的垃圾太多了,怎样去提取出想要的信息呢?

比如新浪一篇新闻,里面除了新闻正文外,还有一起和这个新闻没有联系信息,侧面的信息,顶上链接,底下的链接等,在nutch的一个网页的pareData中把这个链接也包含进去了,对网页查询等有不好的影响,

请问一个用什么方法可以解决一下,或一些
 
 回复人:kauu(kauu) ( 一级(初级)) 信誉:1002006-12-18 21:02:20得分:0
 
 
?

这里没有人研究nutch 吗?
Top
 
 回复人:xiao7cn(烧鸡) ( 一级(初级)) 信誉:952006-12-21 17:33:15得分:0
 
 
?

用基于模板的信息提取技术,因为新浪网的页面结构是一样的,让nutch只在特定的位置提取信息...


Top
 
 回复人:xxlcg(☆突突☆) ( 一级(初级)) 信誉:1002007-01-10 11:51:09得分:0
 
 
?
修改parseHtml啊
识别到是你要的网页,才提取你要的信息,否则就丢弃
或者你写个filter,parser会把document的root传过来的,在这个点上提取也可以,但nutch会帮你把垃圾采集起来,呵呵
Top
 
 回复人:kauu(kauu) ( 一级(初级)) 信誉:1002007-01-15 12:45:07得分:0
 
 
?
谢谢
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值