爬虫如何抓取到Asp.Net中-doPostBack获取新页面的数据

原创 2007年10月01日 21:43:00
在Web 2.0时代,很多网站采用AJAX技术实现,带来较好用户体验的代价是,Javascript得到的内容搜索引擎无法爬到,Google也正在研究此种技术。本文讨论Asp.Net程序生成的链接,爬虫如何能爬进去的问题。
问题:某网站出现的数据列表分页显示,而上一页和下一页都是用__doPostBack提交到后台处理,如javascript:__doPostBack('ucInfoListMore$gridInfoList$_ctl21$_ctl1',''),我们根本得不到他绝对链接的地址,而且每一页得下一页传入的参数是一样的。
分析:我们首先理解__doPostBack做了哪些事情。
function __doPostBack(eventTarget, eventArgument) {
var theform;
if (window.navigator.appName.toLowerCase().indexOf("netscape") > -1) {
theform = document.forms["Form1"];//注意此处的FormID
} else {
theform = document.Form1;//还有此处
}
theform.__EVENTTARGET.value = eventTarget.split("$").join(":");
theform.__EVENTARGUMENT.value = eventArgument;
theform.submit();
}
明白了吧,问题就在.__EVENTTARGET(后台处理的事件)和__EVENTARGUMENT上。这样就简单了,我们可以给这两个参数赋值,然后向后台发送Post就可以了。那么如何指定某一页呢,Asp.Net在后台是以Session方式保存当前页信息的,我们在Post得时候能够保证实在同一个会话中进行的就可以了。
http://www.cnblogs.com/polugen/archive/2006/12/06/583861.html

Jsoup实现网络爬虫抓取数据

Jsoup实现网络爬虫抓取数据
  • qq_31034679
  • qq_31034679
  • 2017年03月09日 13:37
  • 894

简单的Python爬虫抓数据

简单粗暴的Python爬虫实现统计伦敦奥运会的关注度以及微博客户端和网页版的使用情况...
  • ds1231h
  • ds1231h
  • 2016年08月22日 11:14
  • 920

【转】asp.net项目在IE11下出现“__doPostBack”未定义的解决办法

最近我们运营的网站有用户反馈在 IE 11 下 点击出现 “__doPostBack”未定义”,经过一番google,终于知道了原因:ASP.NET 可能无法辨识出一些浏览器的最新版本,还会经常把它们...
  • apollokk
  • apollokk
  • 2014年03月19日 12:04
  • 7660

爬虫数据抓包

抓包分析是爬虫研发的最基础和关键的步骤。要足够细心和耐心,开发时应采取循序渐进的步骤,并在每个关键环节留有日志输出,方便爬虫问题的问题跟踪与追根溯原。...
  • leiline
  • leiline
  • 2017年02月01日 12:46
  • 1387

百度指数抓取思路

业务需要每天抓取一些关键字的百度指数,花了一上午时间终于搞定了。 思路就是浏览器截图+OCR识别,因为直接解密感觉比较麻烦,需要花费较多的时间,如果以后百度调整了,改动比较大。还是采用通用性比较好的截...
  • jackflit
  • jackflit
  • 2015年10月08日 15:11
  • 7419

对__doPostback函数的理解和应用

 要理解__doPostback函数的用法,首先我们要理解Asp.net 中服务端控件事件是如何触发的。 Asp.net 中在客户端触发服务端事件分为三种情况:   一. WebCon...
  • wyzlwyzl
  • wyzlwyzl
  • 2015年07月31日 10:18
  • 2099

Nutch-2.2.1学习之五Nutch抓取数据在HBase中的存储

Nutch-2.2.1爬取的数据可以存储在HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStor中,这是与Nutch-1.x系列很大的区别,...
  • sky_walker85
  • sky_walker85
  • 2013年12月12日 20:26
  • 11359

直接调用阿里云接口爬取数据

记一次愉快的爬虫经历1、初次试探接到任务,要爬取阿里云上所有拍卖的域名。本想试试scrapy,查看了下网页源码,没有找到要爬取的内容。大网站就是不一样啊,数据隐藏的这么深。2、深入分析从源码没看出蛛丝...
  • chunyuan314
  • chunyuan314
  • 2017年02月13日 14:01
  • 1927

JAVA爬虫抓取百度指数思路总结

做了一个多月的JAVA爬虫爬取百度指数的项目,发现出现了很多问题,总结如下: 抓取百度指数的整体思路:   1、首先得模拟登陆百度账号(用selenium+PhantomJS模拟登陆百度...
  • zhangwei3781871
  • zhangwei3781871
  • 2017年12月27日 19:29
  • 56

网络爬虫抓包使用及通过表单请求

近期,有人将本人博客,复制下来,直接上传到百度文库等平台。 本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接) 如需源码程序,...
  • qy20115549
  • qy20115549
  • 2017年08月08日 11:37
  • 1311
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:爬虫如何抓取到Asp.Net中-doPostBack获取新页面的数据
举报原因:
原因补充:

(最多只允许输入30个字)