我正在尝试抓取一个站点,https://www.searchiqs.com/nybro/(您必须单击“以来宾身份登录”才能进入搜索表单。如果我搜索一个party1术语,比如说“Andrew”,结果会有分页,而且请求类型是POST,这样URL不会改变,会话也会很快超时。如此之快,如果我等待10分钟刷新搜索url页面,它会给我一个超时错误。在
我最近开始抓取,所以我大部分时间都在做一些可以破译网址的帖子。到目前为止,我已经意识到我将不得不看看DOM。使用Chrome工具,我找到了标题。从Network选项卡中,我还发现了以下作为从搜索页面传递到结果页面的表单数据__EVENTTARGET:
__EVENTARGUMENT:
__LASTFOCUS:
__VIEWSTATE:/wEPaA8FDzhkM2IyZjUwNzg...(i have truncated this for length)
__VIEWSTATEGENERATOR:F92D01D0
__EVENTVALIDATION:/wEdAJ8BsTLFDUkTVU3pxZz92BxwMddqUSAXqb... (i have truncated this for length)
BrowserWidth:1243
BrowserHeight:705
ctl00$ContentPlaceHolder1$scrollPos:0
ctl00$ContentPlaceHolder1$txtName:david
ctl00$ContentPlaceHolder1$chkIgnorePartyType:on
ctl00$ContentPlaceHolder1$txtFromDate:
ctl00$ContentPlaceHolder1$txtThruDate:
ctl00$ContentPlaceHolder1$cboDocGroup:(ALL)
ctl00$ContentPlaceHolder1$cboDocType:(ALL)
ctl00$ContentPlaceHolder1$cboTown:(ALL)
ctl00$ContentPlaceHolder1$txtPinNum:
ctl00$ContentPlaceHolder1$txtBook:
ctl00$ContentPlaceHolder1$txtPage:
ctl00$ContentPlaceHolder1$txtUDFNum:
ctl00$ContentPlaceHolder1$txtCaseNum:
ctl00$ContentPlaceHolder1$cmdSearch:Search
所有戴帽子的都藏起来了。我还设法弄清楚了结果结构。在
我的剧本到目前为止真的很可怜,因为我完全不知道下一步该怎么做。我仍然要做表单提交,分析分页和结果,但我完全不知道如何继续。在
^{pr2}$
任何帮助都将不胜感激