中科大EPC课程查询&自动选取
在上一学期写了一个EPC的爬虫,逻辑是爬到合适的课程后以邮件的方式通知自己,然后手动选取。造成的结果就是经常收到一堆垃圾邮件,每日发送邮件总是达到上限,在参考了使用Python和Splinter实现12306火车票查询与抢票和利用Python制作自动抢火车票小程序,过年再也不要担心没票了!两篇博文之后,学习有Splinter的使用,对原来的代码作了些许修改,实现课程的查询与自动选取。
运行环境:Python 3.6.6
所需库:Splinter 0.10.0
Webdriver: google chrome webdrive https://chromedriver.storage.googleapis.com/index.html
我所下载的是73.0.3683.68。
程序逻辑是:确定合适的上课时间以及要选取的课程类型,当爬取到合适的课程后直接选课。
代码如下:
# coding: utf-8
# author: zzhh@mail.ustc.edu.cn
from splinter.browser import Browser
import time
MAX = 5 #最大周数
'''
合适的时间, 形式 turple 列表 (周几,时间)
'''
# BOOK_TIME = [
# ('周一','08:25-09:15'),('周一','09:45-11:25'),('周一','14:30-16:10'),('周一','16:40-17:30'),('周一','19:00-20:40'),
# ('周二','08:25-09:15'),('周二','09:45-11:25'),('周二','14:30-16:10'),('周二','16:40-17:30'),('周二','19:00-20:40'),
# ('周三','08:25-09:15'),('周三','09:45-11:25'),('周三','14:30-16:10'),('周三','16:40-17:30'),('周三','19:00-20:40'),
# ('周四','08:25-09:15'),('周四','09:45-11:25'),('周四','14:30-16:10'),('周四','16:40-17:30'),('周四','19:00-20:40'),
# ('周五','08:25-09:15'),('周五','09:45-11:25'),('周五','14:30-16:10'),('周五','16:40-17:30'),('周五','19:00-20:40'),
# ]
# 以周二周三下午,周五整天,所有晚上为例
BOOK_TIME = [
('周一','19:00-20:40'),
('周二','14:30-16:10'),('周二','16:40-17:30'),('周二','19:00-20:40'),
('周三','09:45-11:25'),('周三','14:30-16:10'),('周三','16:40-17:30'),('周三','19:00-20:40'),
('周四','19:00-20:40'),
('周五','08:25-09:15'),('周五','09:45-11:25'),('周五','14:30-16:10'),('周五','16:40-17:30'),('周五','19:00-20:40'),
]
print (BOOK_TIME)
class EPC():
name = '' #学号
password = '' #密码
driver_name = '' #浏览器
executable_path = '' #浏览器存放路径
'''网址'''
url_login ='http://epc.ustc.edu.cn/n_left.asp' #登陆网站
url1 = 'http://epc.ustc.edu.cn/m_practice.asp?second_id=2001' # Situational dialogue
url2 = 'http://epc.ustc.edu.cn/m_practice.asp?second_id=2002' # Topical discussion
url3 = 'http://epc.ustc.edu.cn/m_practice.asp?second_id=2003' # Debate
url4 = 'http://epc.ustc.edu.cn/m_practice.asp?second_id=2004' # Drama
url7 = 'http://epc.ustc.edu.cn/m_practice.asp?second_id=2007' # Pronunciation Practice
url_book = 'http://epc.ustc.edu.cn/record_book.asp' #预约记录
#登陆
def __init__(self):
self.driver_name = 'chrome' #chrome浏览器
self.executable_path = 'D:/chromedriver' #chromedriver存放路径
def start(self):
self.browser = Browser(driver_name = self.driver_name,executable_path = self.executable_path) #生成Browser实例
self.browser.driver.set_window_size(1000,800) #设置窗口大小
self.login() #登陆
while True:
print(time.ctime(),' :')
#if self.select(self.url1): break # Situational dialogue
if self.select(self.url2): break # Topical discussion
#if self.select(self.url3): break # Debate
if self.select(self.url4): break # Drama
if self.select(self.url7): break # Pronunciation Practice
print('\n')
time.sleep(20)
def login(self):
self.browser.visit(self.url_login)
self.browser.fill("name",self.name)
self.browser.fill("pass",self.password)
print("请手动输入验证码......")
while True:
if self.browser.find_by_name('name')==[]:#登陆成功,已跳转
break
time.sleep(1)
def select(self,url):
self.browser.visit(url)
tds = list(self.browser.find_by_css('td[align="center"]'))#筛选。。。
tds_left = list(self.browser.find_by_css('td[align="left"]'))
course_name = tds_left[2].text #课程名称
#[int(tds[14].string[1:2]),tds[15].string,] + [string for string in tds[18].strings] #信息
week = int(tds[14].text[1:-1]) #第几周上课
day = tds[15].text #星期几上课
course_date = tds[18].text.split('\n')[0] #上课日期
course_time = tds[18].text.split('\n')[1] #上课时间
text = 'There is a course: {} in week{},{},{},{}.'.format(course_name,week,day,course_date,course_time,end='\n')
print(text)
if (week <=MAX) & ((day,course_time) in BOOK_TIME): #如果满足条件,则自动选课
tds[25].click() #选课
#如果选课成功,则停止选课,跳转到已选课程界面
alert = self.browser.get_alert()
alert.accept()
self.browser.visit(self.url_book)
return True
return False
if __name__=='__main__':
epc=EPC()
epc.start()
运行程序的时候需要注意两个事情:
一是四个课时不能选满,否则会因为已达预约上限而不能选课:
二是注意上课时间不要和已经选有的课的时间冲突,不然很可能不是选课,而是取消了,很不幸我就遇到过这种情况。这种情况有多种解决方法,最简单的就是从BOOK_TIME中删去该时间段,另一种方法是可以加个判断,看操作到底是选课还是取消,或者其他的东西。
注意爬取的时候访问不要过于频繁,弄崩EPC就不好了。