今天写了小小的一个需求,从中国天气网的上海天气预报页面爬取当天的天气预报,能够每天定时运行程序并发送邮件至个人邮箱。
# coding=utf8
__author__ = 'smilezjw'
import urllib2
import re
import smtplib
from email.mime.text import MIMEText
import time
import sched
scheduler = sched.scheduler(time.time, time.sleep)
class WeatherSpider:
def __init__(self):
self.siteURL = 'http://www.weather.com.cn/weather/101020100.shtml'
# 爬取siteURL页面的静态内容
def crawl(self):
request = urllib2.Request(self.siteURL)
response = urllib2.urlopen(request)
content = response.read()
response.close()
return content
# 解析爬取的内容
# 这里只获取了城市、时间、温度和天气等信息
def getContents(self):
html = self.crawl()
pattern = re.compile('<title>(.*)今天天气预报')
city = re.findall(pattern, html)
pattern = re.compile('\d+月\d+日\d+时.*C')
data = re.findall(pattern, html)
return city[0] + data[0]
# 发送邮件
def sendMail(self):
# 然后将第二天的任务添加到盒子中
scheduler.enterabs(self.everyDayRun(8, 5, 0, True), 1, self.sendMail, ())
user = 'xxx@qq.com'
pwd = 'xxxxxxxxxx'
to = 'xxx@qq.com'
msg = MIMEText('Good Morning!\r\n' + self.getContents())
msg['Subject'] = 'Today Weather Forecast'
msg['From'] = user
msg['To'] = to
s = smtplib.SMTP('smtp.qq.com', port=25) # 注意需要去QQ邮箱设置中开启POP3/SMTP和IMAP/SMTP
s.login(user, pwd)
s.sendmail(user, to, msg.as_string())
s.close()
# 每天定时运行程序
def everyDayRun(self, hour, min, sec, nextDay=True):
struct = time.localtime()
if nextDay:
day = struct.tm_mday + 1
else:
day = struct.tm_mday
return time.mktime((struct.tm_year, struct.tm_mon, day, \
hour, min, sec, struct.tm_wday, struct.tm_yday, struct.tm_isdst))
if __name__ == '__main__':
spider = WeatherSpider()
# 启动程序后,先获取今天的数据,这里nextDay设置为False,如果设置为True则无法得到当天的数据了
# enterabs和enter的区别在于enter中time是相对时间(相对于当前再过多久时间),而enterabs中time是绝对时间
# 其他3个参数分别为优先级0最高, 需要执行的函数,该函数需要传递的参数元组(这里一定是以元组形式传递进去)
scheduler.enterabs(spider.everyDayRun(8, 5, 0, False), 1, spider.sendMail, ())
scheduler.run()
print 'Email has been sent!'
scheduler是一个对象,就像一个预存定时执行的任务的盒子。scheduler.enter或者enterabs就是把定时执行的任务放到这个盒子中,而scheduler.run是执行盒子中的任务,这些任务则是定时了的。
这种方法依然还是单线程的方式,多线程可以采用threading.Timer类,这里先这么写着吧。