前段时间师姐给了我一个C#爬图的代码,很简单有效。我查了点资料,把代码搞懂了然后简化又扩展了一下使它能够爬取网页内容。现在把代码和过程放上来供有兴趣的朋友一起探讨。
这一部分只讲如何爬验证码图片。爬取内容的部分见下一篇博客吧~
1.获取验证码图片链接
有的验证码进入网页就有,有的要在登录界面输入用户名,故意输错几次密码才能把验证码刷出来。
新浪的验证码,如图所示:
然后右击验证码图片,选择在新标签页中打开图片。
新标签页面中只有验证码图片,且每刷新一下页面就会发现验证码也变了。但是这个标签页的链接是不会变的,只是每次刷新都会随机展示一个验证码而已。这个标签页的链接就是我们要找的!!!
复制这个链接,比如新浪的是:https://login.sina.com.cn/cgi/pin.php?r=1523262272227&lang