ruby爬虫日记1

    概述:打算对51job的页面写一个爬虫脚本,能在选择职能/行业/月薪后,爬取符合条件的工作信息


    问题描述:
    1.在选择职能后,点击搜索按钮,会在新窗口打开页面,使用mechanize库对选择职能的input控件(实际类型是个button)进行赋值,再提交表单。从脚本的结果看,发现对应的page的title与实际操作的不一致;

    2.怀疑表单提交不仅与button的值有关,想通过开发者模式查看具体的提交数据,但点击搜索按钮后会从新的标签中打开页面,因此F12的网络中无法查看到提交的数据;


    解决方式:
    1.从其他的搜索入口发现了选择职能的控件与隐藏表单的关系,再选定职能后,隐藏表单中某一个input(type为hidden)的值才会生成,真正的搜索结果与这个值有关。

    2.在新标签中打开页面是因为form元素中的target属性为_black,将该属性的值删掉后即可在当前标签打开页面,再通过浏览器调试模式查看post的数据。

    教训:
    对于问题1,在发现提交的button值无效时,没有仔细查看HTML源码,没有发现隐藏表单;对于问题2,没有在原理上探究为何会在新标签中打开页面,只是尝试通过工具抓取新标签中的数据(Lodrunner可以充当次角色)


部分代码:

URI_51job="http://www.51job.com/chengdu"

agent=Mechanize.new
agent.get(URI_51job)
agent.page.form("frmQuickSearch").field("funtype").value="2707"
agent.page.form("frmQuickSearch").submit

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值