import requests
import time
from bs4 import BeautifulSoup
header={
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
'Connection': 'keep-alive'
}
# 手工输入账号
name=input("input name:")
# 手工输入密码
password=input("input password:")
# 时间戳,取整
num=int(time.time())
# 验证码图片的 url
code_url='http://passport2.chaoxing.com/num/code/?'+str(num)
session=requests.Session()
r=session.get(code_url)
image=r.content
# 将验证码 保存到本地,手工输入时查看
with open('code.jpg','wb') as f:
f.write(image)
# 手工输入验证码
numcode=input("input code:")
#post的参数
params={
'refer_0x001':'http%3A%2F%2Fi.mooc.chaoxing.com%2Fspace%2Findex.shtml',
'pid':'-1',
'pidName':'',
'fid':'-1',
'fidName':'',
'allowJoin':'0',
'isCheckNumCode':'1',
'f':'0',
'uname':name,
'password':password,
'numcode':numcode
}
#form提交的url
url='http://passport2.chaoxing.com/login'
req=session.post(url,params,headers=header)
# 注意 用 req 对象 获得的cookies再放到下一个请求种的参数里
# 其实也可以不写cookies,因为session默认共享cookies
courses=session.get('http://i.mooc.chaoxing.com/settings/info?t=1594477318123',cookies=req.cookies,headers=header) #通过成功登陆的cookie访问其他页面
# 将请求的页面 缓存到本地,以此测试是否登录成功
# 如果没有登录成功,那么保存的页面一定是登录页面,也就是被拦截
with open("myh_cxfy.html", "wb") as fp:
fp.write(courses.content)
核心内容:
1. 一定要学会抓取form提交表单的action链接。
2. 一定要学会利用cookie来保持会话状态。
3. 善于发现验证码url的规律。