爬虫的定向爬取与垂直搜索

定向爬虫是网络爬虫的一种。

  定向爬虫

  定向爬虫可以精准的获取目标站点信息。

  定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。

 优势:

  基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。

  劣势:

  目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。

 

  也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板,比如针对BBS就要构建与BBS相同的网页模板,让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此了。问答网站,一般都有提问块和回答块,如果我们能够建立模板专门的爬取这两个块,无疑将会在效率和准确度上更上一层楼。

垂直搜索

垂直搜索是针对某一方面的定向搜索,比如汽车、房子、衣物等等方面的单方面搜索,相对于一般搜索引擎的广度搜索,更专业性。而我们要做的项目是关于计算机方面知识的问答网站,只需要搜索爬取相应方面的知识就够了。应该说我们是一个基于深度的搜索。老师也给了我们一些高校的教学资源网站,我们只要能够将这些网站上的所有链接深度爬取,应该也能够获取大量专业性的资源。

 

参考资料:http://www.zhihu.com/question/19651413

http://geek87.iteye.com/blog/382450

转载于:https://www.cnblogs.com/76er/archive/2012/10/25/2738627.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值