火车头使用前后截取模式采集数据

 

这里我们获得标题,可以选开始"<title>"结束"</title>",然后过滤一下 “- 站长网”这字符,也可以开始“<title>"结束”- 站长网“来直接获得

标题。想获得关键字的话可以 开始 <meta name="keywords" content="  结束 ">

下边讲一下怎么获得内容,我们先打开网页源代码,查找内容附近的代码。

 

来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a> 时间:2008-07-31 14:03 字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> <a href='javascript:FontZoom(12)'>小</a>] <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a> <a href="/member/article_add.php" target="_blank">我要投稿</a> </div> <div class="text"> <div id="arctext"> <p>  做网站我认为最重要的就是两个字&quot;人气&quot;,怎样让网民来一次就想来第二次、第三次,这是每个站长都必须要想的事情,我当时做论坛时刚开始没有人,后宣传一下来些人,但基本不发贴,再后来发了几个贴可很少见到回贴,呵呵,那段时间真有是有尽使不上,不知道从和下手,知道后来想到了破窗效应:</p> <p>  &ldquo;破窗效应&rdquo;的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中:一位学者找来两量一模一样的汽车,分别把它们放置在中等阶级社区和杂乱街区,他把停在中等阶级社区的那辆车的车牌摘掉,顶棚打了个洞。结果这量车一天之内就被人偷走了。而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞,结果仅过几小时这辆车也被偷走了。以这个实验为基础得出&ldquo;破窗理论&rdquo;。</p> <p>  一位企业老总经过仔细观察发现的现象:当一栋房子的窗户玻璃出现第一块破损后,如不及时修补,很快,其他玻璃会接二连三的遭到破坏,如果及时修补,其他玻璃极少在被破坏。</p> <p>  网站上如果有几个垃圾贴,那么不出很长时间垃圾贴会越来越多,有时候在论坛的回帖和文章的评论上也很明显,如果第一个评论的人骂作者,第二个人看到了很可能也会骂,那么第三个人肯定也是骂的,这就是破窗效应,但我们反过来想,如果头几个人都说作者的好,那么就很少会出现骂人的话了。</p> <p>  所以我当时就用好多马甲回复各个主题,加上朋友的帮忙,该社区很快有了人气,虽然访问量不是特别大,但基本上都是我们的忠实用户。</p> <p>  现在虽然我重点做郑州人才网而不做社区了,但这其中的道理是一样的,很多站长在推广增加流量的同时忽略了人气,其实人气和流量是同等重要的,怎么做出个有较高人气的网站,就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p> <center></center> </div> <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'>作者 <font color='red'>郑州人才网</font> 的个人空间</a>

我们可以看到,文章前边是<div id="arctext">这个代码,我们查找一下,这是唯一的,可以使用,然后找后边文章结束有个这个代码

<center></center>,这个也是唯一的。这样,我们以这两个代码为开头和结尾就可以获得内容了。

规则下载

在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是i通配符的使用是在代码的中间,两边是不能使用的,那样一般是会出错的,如果可以是以这个开始 <til(*)> ,但不能这样,(*)title 或是 title(*) 。比如这个可以代替任何内容,有的采集时不容易获得最开始的标识,或者说是那样的代码很多,比如代码里 (*)<div id="arctext"> 很多很多,但是有的代码后的很少,这时我们可以考虑用通配符。比如上边的我们开始可以写成    来源:<a(*)<div id="arctext">   或者 我要投稿</a>(*)<div id="arctext"> 或者 来源:(*)时间:(*)收藏</a>(*)我要投(*)<div id="arctext"> 等........注意前边的基本都是唯一的代码.

使用前后截取模式采集数据是最常用的方法,也是最简单的方法,使用好这个可以基本采集的都可以处理了。

转载于:https://www.cnblogs.com/junzhongxu/archive/2009/04/30/1446727.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值