采集器经验

需要得到webmaster的外链列表, 而webmaster api没有提供这个数据的获取方法, 只能写采集器了

以前没写过需要用户登录的采集器, 先拿一些简单的来试试

首先试了bccn, POST数据有username和password, 成功了


百度和google的登录页面都是https, POST时会出现错误, 解决方法是

http://stackoverflow.com/questions/560804/how-do-i-use-webrequest-to-access-an-ssl-encrypted-site-using-https


但百度的POST还会出现错误, underlying connection was closed, the connection was closed unexpectedly.

google的POST总返回登录页面的内容, 看了这篇文章(http://everydayscripting.blogspot.com/2009/10/python-fixes-to-google-login-script.html)才知道: google的POST数据中有两个得到登录页面提取:dsh和GALX

提取出来然后POST便返回: Your browser's cookie functionality is turned off. Please turn it on.

发现这个response的header的Set-Cookie中只有GAPS这一项(而firebug捕获的POST response的Set-Cookie中有NID, SID, LSID, SSID, HSID, APISID, )再来看firebug捕获的登录POST的request的cookie里面已经有了GAPS, 而我的提交的request没有设置任何cookie, 所以可能是看到我的request的cookie中没有GAPS, 便得出我把浏览器的cookie给关了的结论

接着实验了下, 把cookie清空然后访问登录页面, 发现response的set-cookie为GAPS, 即POST之前需要有GAPS这个cookie.

根据上面的, 先GET一次登录页面获取cookie, 然后把cookie作为下次POST的cookie, 登录成功了, 进了Accounts Overview页面, 但是response里面没有任何cookie..

这次response html中有:

You are using an old browser version which Google accounts no longer supports. Some features may not work correctly. Please upgrade to a modern browser, such asGoogle Chrome.

不是功能不支持, 而是浏览器过老. 我能想到的看浏览器版本什么的只有user agent了(js: navigator.userAgent)

加上userAgent然后POST, 得到的response页面是Account settings页面, 但仍然没有set-cookie..

把response html加载到webbrowser中(browser.navigateToString()), 出现js错误, 而该页面的js已经被压缩了, 根本没法看


后来又发现有一个post parameter没加上去(checkConnection=youtube:1012:1), 加上之后立即发生WebException:Unable to connect the remote server.   inner exception是:{"由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 46.82.174.68:443"}


现在打算用webbrowser来模拟登录然后采集, 原理和之前的youku投票的firefox插件差不多, 写到采集器(2)里

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
网站万能信息采集器10版 隆重推出 融合5年经验 前所未有的强大功能 无与伦比 八大特色功能: 1.数据采集添加全自动 网站抓取的目的主要是添加到您的网站中,网站万能信息采集器软件可以实现信息采集添加全自动完成。其它网站刚刚更新的信息五分钟之内就会自动跑到您的网站中,您说轻松不轻松? 2.多级页面采集 整站一次抓取 不管有多少大类和小类,一次设置,就可以同时采集到多级页面的内容。如果一条信息分布在很多不同的页面上,网站万能信息采集器也能自动识别N级页面实现信息采集抓取。软件自带了一个8层网站采集例子 3.任意类型的文件都能下载 如果需要采集图片、Flash、视频等二进制文件,网站万能信息采集器经过简单设置就可以把任意类型的文件保存到本地。 4.自动识别JavaScript特殊网址 不少网站的网页连接是类似[removed]openwin('1234')这样的特殊网址,不是通常的http://开头的,网站万能信息采集器也能自动识别抓到内容 5.采集过滤重复 导出过滤重复 有些时候网址不同,但是内容一样,万能采集器仍然可以根据内容过滤重复。(新版本新加功能) 6.多页新闻自动合并、广告过滤 有些一条新闻里面还有下一页,网站万能信息采集器也可以把各个页面都抓取到的。并且抓取到的新闻中的图片和文字同时可以保存下来,并能把广告过滤掉 7.自动破解Cookie和防盗链 很多下载类的网站都做了Cookie验证或者防盗链了,直接输入网址是抓不到内容的,但是网站万能信息采集器能自动破解Cookie验证和防盗链,呵呵,确保您能抓到想要的东西 8.需要登录的网站也照抓 对于需要登录才能看到信息内容的网站,网站万能信息采集器可以实现轻松登录并采集,即使有验证码也可以穿过登录采集到您需要的信息。
YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值