概述:打算对51job的页面写一个爬虫脚本,能在选择职能/行业/月薪后,爬取符合条件的工作信息
1.在选择职能后,点击搜索按钮,会在新窗口打开页面,使用mechanize库对选择职能的input控件(实际类型是个button)进行赋值,再提交表单。从脚本的结果看,发现对应的page的title与实际操作的不一致;
2.怀疑表单提交不仅与button的值有关,想通过开发者模式查看具体的提交数据,但点击搜索按钮后会从新的标签中打开页面,因此F12的网络中无法查看到提交的数据;
1.从其他的搜索入口发现了选择职能的控件与隐藏表单的关系,再选定职能后,隐藏表单中某一个input(type为hidden)的值才会生成,真正的搜索结果与这个值有关。
2.在新标签中打开页面是因为form元素中的target属性为_black,将该属性的值删掉后即可在当前标签打开页面,再通过浏览器调试模式查看post的数据。
教训:
对于问题1,在发现提交的button值无效时,没有仔细查看HTML源码,没有发现隐藏表单;对于问题2,没有在原理上探究为何会在新标签中打开页面,只是尝试通过工具抓取新标签中的数据(Lodrunner可以充当次角色)
部分代码:
URI_51job="http://www.51job.com/chengdu"
agent=Mechanize.new
agent.get(URI_51job)
agent.page.form("frmQuickSearch").field("funtype").value="2707"
agent.page.form("frmQuickSearch").submit