实战网络机器人(一)

很久以前做过一些简单的机器人,一个小外挂当时卖掉赚到了500块呵呵!旧话不提,最近被安排到一个很头痛的部门作网络蜘蛛。从那方面讲对我来说都是养老的部门。却激起我对这个看似无聊点却是最乐趣无穷的东西无限遐想。 

哪很不喜欢打字因为打字的速度太远远落后我想说的速度了,停停顿顿的思考真实个折磨。

从我干的这个简单的工作说起吧,做一个网站的模版,把有效的下载地址及其有效的描述信息从网站里面抓出来。当面对一个网站域名的时候对一个问题就是我们要什么?当然对于我的答案是有效的下载连接。这里就会有两个可能,一有需求有资源。二有需求点没有资源。这个里面会有点波折因为还有两种组合,一有资源产生了需求,二有资源但无任何需求,会产生故事的只有前3种的情况,因为....大家都知道了。

哪我属于第一种情况,而一般的网络蜘蛛完成的是属于第二种情况它只要找到资源就可以了。资源我有但确是混乱的和我的需求是由距离的。我的工作是挑选和分类。

网页自动分类是一个难题对于比较广的分类比如新闻,现在很多的大站还是靠手工分类。当然还是有成功的案例,当面对一个网站的时候会很去探索总结规律。也许有目的但很多的时候是没有目的,人们会注意一些细节只要它容易被辨识,比如标题下载地址。都会起到指导的作用。毫不夸赞的说只要一个网页由下载有介绍,有大小啦等等很容易就会确认它是一起码是一个介绍的页面,在这个页面里可以找到要下载的连接看看(下载地址)很明确的一个目标,这个块当然对于颜色来说的是一个块,对于网页就是一个表单,里面有两个连接一个是无用连接

  • ·[快车专用通道,需要安装快车1.82版]
  • ·PC-cillin Virus Pattern Files4.495.00(AS/400, S/390, Windows)
  • 一个是下载地址。这里就比较痛苦的地方了,第一明显是一个扰乱如何判断?作为人可以下载下来马上就会通过其他的辨识方法知道这个不是我想要的!一个过滤产生了。我们要了解机器人的意义他是代替人的活动,但客观资源并不会是面对你的机器人的,一些看似对人很简单或微不足道的过程对于程序来说确实很难逾越的。这个链的判断要离开页面了,这就离开了一个控制范围。对于某些程序来说是痛苦的。    累了看明天还能在写些什么在说

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值