网友问题回答_百度知道的搜索结果采集

火车头论坛5-14日一个问题的解答:http://bbs.locoy.com/spider-75505-1-1.html

Q:http://zhidao.baidu.com/q?word=%CB%BC%D4%B4%D1%A7%D4%BA&lm=0&fr=search&ct=17&pn=0&tn=ikaslist&rn=10 此网址采集规则如何写?

A:
1、该百度知道的网址规则很容易分析,网址 http://zhidao.baidu.com/q?word=%CB%BC%D4%B4%D1%A7%D4%BA&lm=0&fr=search&ct=17&pn=0&tn=ikaslist&rn=10 中 传递的参数 "pn=0"定义的是分页号。可以发现,0表示第一页,10表示第二页,一次类推,110表示第12页。

2、由上分析,在定义“采集网址规则”的时候,添加“起始网址”时可以利用等差数列实现多页网址。地址格式设置成:http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%CB%BC%D4%B4%D1%A7%D4%BA&lm=0&pn=(*)0 。如果采集15页,其他参数设置如图:


3、以上步骤定义了要采集的根页面,接下来定义每个分页的10个搜索结果的网址的规则。可以在“采集网址规则-->多级网址获取”中添加一条规则来达到目的。这里我采用从“指定区域中提取网址"的方式来实现网址的获取,如何确定区域得通过分析网址的源代码。可以任意选取一个搜索结果,打开页面并获取源代码,然后分析。
这里,我们可以得到一个区域: <table border=0 cellpadding=0 cellspacing=0><tr><td class=f> 和 <div id="pg">;然后填写个结构过滤规则保证获取的网址是满足要求的。具体见图:


测试结果:

4、之前的步骤实现了"采集网址规则"的定义。接下来就该定义”采集内容规则“,获取每条搜索结果中有意义的内容。
由于提问者没有说明具体想要获取什么内容,我们以获取”满意答案“为目的来举例:
首先、选择任意一条搜索结果:http://zhidao.baidu.com/question/418614635.html 查看其源代码,如图。

可以发现,对于每条”满意回答“,应该都有(这个就不需要证明了吧^^) <spanclass="best-answer-title ml10 bold">满意回答</span> 这个语句。于是我们可以利用
“前后截取”的 数据提取方式来实现该内容的获取。开始字符串就填: <spanclass="best-answer-title ml10 bold">满意回答</span>结尾字符串就填:</pre> 。然后添加一个“html标签排除”的数据处理规则,保存即可。 5、测试结果如下:

6、接下来定义一些发布规则,就可以将结构保存在数据库或文本中了。此步骤就不介绍了。


Ok, 这是这个专用博客开始的第一篇博文,写的可能有写啰嗦,例子也很简单。我也正在学习中,还请多多包涵了。大家如果还有什么问题可以在此博文后回复,我会争取一一解决。 thx!8

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
百度知道自定义分类采集版 v1.4.3X 更新日志 1.修复自定义采集内容不正确 2.更新新的采集规则 百度知道自定义分类采集版简介 百度知道自定义分类采集版是采用php进行开发的百度知道问答采集网站源码。 百度知道自定义分类采集版软件特点 1、可自定义采集分类 2、免人工录入信息,全自动系统采集 3、支持缓存 减少服务器资源。 (本程序需要安装伪静态插件) 百度知道自定义分类采集版安装说明 1.首先打开/API/3.PHP 这个文件,里面有详细的配置说明 如下: //网站程序配置! $seo_1="你问我答网 国内优秀的知识问答网站"; //搜索引擎优化 - 标题后缀 $seo_2="你问我答网,知识问答,网友提问,网友回答"; //搜索引擎优化 - 网站关键词 $seo_3="你问我答网,国内优秀的知识问答网站"; //搜索引擎优化 - 描述网站 //以上三个地方认真填写,严重影响收录量! $web="你问我答网"; //网站名称请填写 $website="www.sf024.com"; //网站域名不要加http:// $beian="辽ICP备14003759号-1"; //备案号没什么好说的 $tj='' //网站流量统计代码 //LOGO修改 styleimgtransdmin-light.gif 文件 尺寸宽225PX X 高28PX //广告修改api/ad.php 文件,加入百度广告代码或者其他联盟广告代码即可! //缓存时间设置 $cache_true=true; //缓存开关,如不需要缓存,请设置为 false , 如需要缓存清设置为true $cache_index="10"; //首页默认10分钟一更新 $cache_list="30"; //列表默认30分钟一更新 $cache_read="120"; //内容页默认120分钟一更新 修改好以后,配置IIS伪静态,配置文件在IIS下,不会的联系我! 百度知道自定义分类采集版页面展示 相关阅读 同类推荐:站长常用源码

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值