shell curl 登陆有验证码的网站。

本文介绍如何利用shell和curl命令行工具登录含有验证码的网站,探讨在爬虫过程中解决验证码问题的方法。

shell curl 登陆有验证码的网站。

使用curl对需要登陆(验证码),的网站进行爬虫。

function main(){
	url=$1;
	doname=$(getDoname $url);
	# Cookie存在位置
	cookie="/tmp/$doname.cookie";
	# 删除旧cookiew
	rm -rf $cookie;
	# 定义User Agent
	ua="Mozilla/5.0 (Linux; Android 10; VOG-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36";
	# 请求获取验证码图片,
	curl -c $cookie -b $cookie -H "User-Agent: $ua"  "https://sso.39doo.com/captcha/" -o "/tmp/captcha.jpg";
	# 显示验证码图片
	ristretto "/tmp/captcha.jpg" &
	# 读取用户输入的验证码
	read -t 30 -p "Please input your username:" captcha;
	echo $captcha;
	# 获取表单 csrf 验证值
	csrfmiddlewaretoken=`curl -c $cookie -b $cookie https://sso.39doo.com/cas/login | grep "csrfmiddlewaretoken" | sed -r "s/.*csrfmiddlewaretoken'\s*value='([^']+).*/\1/g"`;
    # 判断是否获取成功
	if [[ $csrfmiddlewaretoken == "" ]]; then
		echo "Err : Unable to obtain crsf!"
		return;
	fi
	# 登陆服务器
	curl -c $cookie -b $cookie -d "captcha=$captcha&csrfmiddlewaretoken=$csrfmiddlewaretoken&email=你的邮箱&password=您的密码" -H "User-Agent: $ua"  "https://sso.39doo.com/cas/login";
	curl -c $cookie -b $cookie -H "User-Agent: $ua"  $url;
	
	# 开始爬虫
	echo -e "\nget api data ....";
	for (( i = 0; i < 15; i++ )); do
		sleep 2;
		echo -ne "\rpage$i ....";
		psearch=`echo $search | sed -r "s/page=[0-9]+/page=$i/g"`;

		curl -c $cookie -b $cookie --referer "$url" -H "User-Agent: $ua"  $psearch &>/dev/null >> "./zoomeye.log";
		echo -e "\n" >> "./zoomeye.log";
	done

}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值