对于爬取数据而言, 有的网站在登录时或者采集数据过程中,都会出现验证码。对于网络爬虫而言,解决验证码识别识别是非常重要的一件事。
今天,我们将讨论有关验证码的5件事,以帮助大家更好的进行网络数据抓取。
1. 什么是验证码?
2. 验证码是如何工作的?
3. 常见的验证码有哪些类型?
4. 为什么网站要放验证码?
5. 如何处理网页采集中遇到的验证码?
1. 什么是验证码?
根据维基百科的定义,验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart” 的缩写(全自动区分计算机和人类的图灵测试),是一种区分用户是计算机还是人的公共全自动程序。
它通常在互联网上使用,特别是在网上购买产品或者登录网站时。
2. 验证