简单有效的防网络爬虫技巧?

        女友在51job上找工作,虽然51job已经有工作地点分类,却只分类到城市,但是因为家住浦东,所以,她希望只找在浦东的公司发布的职位,于是向我求救,希望我能帮她把查找结果中公司地点不在浦东的职位信息过滤掉。我一看要求,加上前不久刚写了 blogbench——一个基于webbrowser控件的blog发布程序,觉得应该没什么太大的挑战吧~~

       您应该也预料到了,实践的结果总会出人意料的,最后不得不佩服51job设计人员不知是有否有意为之的页面设计风格—— 每个网页中有两个<html></html>标签对,往往第一个</html>出现在真正的body内容被现示之前

51job除了首页之外的网页,标签结构一般是这样的:

<html>
<head>
...
</head>
<body attributelist='...' οnlοad='...'>
</html>
<html>
<body>
真正的显示内容
</body>
</html>

这个结构在被mshtml.HTMLDocument解析后,被存入变量的只会包含以下内容:

<html>
<head>
...
</head>
</html>

其余内容被忽略,但是,浏览器还是会显示其余内容的~~ 也因此,我用WebBrowser控件浏览其页面,却无论如何也 跟踪不到它真正的现示内容

试着在google和baidu搜索,"职位,51job,程序员",果然没有任何有效查询!

哎,糟蹋了自己在mm心中的“高手”形象,换得这一点点编程技巧,在此与大家共享,寥解心中闷气~~
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值