搜索技术、大有网
iteye_19458
这个作者很懒,什么都没留下…
展开
-
Storm 集群异常的解决
背景: 5台机器, 部署storm计算节点, 2台机器drpc节点. 环境如下: Storm: 0.7.1 Linux: CentOS 5.5 Java: jdk 1.6.37 [b]问题:storm 集群总是在运行一段时间后某些节点停止工作, 工作进程退出.[/b] 解决过程: 1. 查看...原创 2012-12-06 18:41:12 · 214 阅读 · 0 评论 -
如何从Web页面中获取结构化列表内容
传统搜索引擎的设计中,有效内容抽取是一个非常重要的技术目标。例如:网络爬虫在爬行时需要抽取有效的链接,并进行分析,以便对目标网站进行深度或广度的内容抓取; 更为普遍的应用场景是数据索引时,需要从数据中剔除干扰内容,而只保留主要内容进行索引,否则会严重影响搜索的准确性。 而在实时搜索引擎中,对内容抽取技术更加依赖,也提出了更加多的要求。相比于传统搜索引擎,其最大的特点在于实时性,这就要求在数据抓...原创 2012-12-06 18:51:55 · 327 阅读 · 0 评论