nutch怎样过滤spam信息。

最新推荐文章于 2024-09-23 17:12:42 发布

kauu

最新推荐文章于 2024-09-23 17:12:42 发布

阅读量5.2k

点赞数

文章标签：搜索引擎 filter html

本文链接：https://blog.csdn.net/kauu/article/details/1483434

版权

主　　题：		nutch怎样过滤spam信息。
作　　者：		kauu (kauu)
等　　级：
信誉值：		100
所属论坛：		专题开发/技术/项目搜索引擎技术
问题点数：		20
回复次数：		4
发表时间：		2006-12-14 21:15:22

比如用自带的parseHtml可以提取出html的信息，可是里面的垃圾太多了，怎样去提取出想要的信息呢？

比如新浪一篇新闻，里面除了新闻正文外，还有一起和这个新闻没有联系信息，侧面的信息，顶上链接，底下的链接等，在nutch的一个网页的pareData中把这个链接也包含进去了，对网页查询等有不好的影响，

请问一个用什么方法可以解决一下，或一些

回复人：kauu(kauu) ( 一级(初级)

) 信誉：100

2006-12-18 21:02:20

得分:0

这里没有人研究nutch 吗？

Top

回复人：xiao7cn(烧鸡) ( 一级(初级)

) 信誉：95

2006-12-21 17:33:15

得分:0

用基于模板的信息提取技术,因为新浪网的页面结构是一样的,让nutch只在特定的位置提取信息...

Top