爬虫自动登陆抓取 feedback & autosendemail

最新推荐文章于 2024-07-17 11:27:50 发布

Peace & Love

最新推荐文章于 2024-07-17 11:27:50 发布

阅读量1.1k

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/u013205877/article/details/66136517

版权

爬虫专栏收录该内容

17 篇文章 0 订阅

订阅专栏

# coding:utf-8
import requests
import http.cookiejar
import re
import sys
import smtplib
import time
from email.mime.text import MIMEText

_user = "xxxxxxxxxxxxxxxxxx@qq.com"
_pwd = "xxxxxxxxxxxxxxxxx"
_to = "xxxxxxxxxxxxxxxxxxx@360.cn"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:48.0) Gecko/20100101 Firefox/48.0'}
filename = 'cookie'

# 建立一个会话，可以把同一用户的不同请求联系起来；直到会话结束都会自动处理cookies
session = requests.Session()
# 建立LWPCookieJar实例，可以存Set-Cookie3类型的文件。
session.cookies = http.cookiejar.LWPCookieJar(filename)
# 若本地有cookie则不用再post数据了
try:
    session.cookies.load(filename=filename, ignore_discard=True)
    print ('load local cookies successed')
except:
    print('Cookies load failed！')

print('attemptting to login...')
url = 'https://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
data = {'user': 'xxxxxxxxxxxxxxxxxxxxxxxxx',
        'passwd': 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx',
        'ref': 'xxxxxxxxxxxxxxxxxxxxxxxx',
        'tag': 'xxxxxxxxxxxxxxxxxxxxxxxxxxx',
        'src': 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'}
result = session.post(url, data=data, headers=headers)
# 保存cookie到本地
session.cookies.save(ignore_discard=True, ignore_expires=True)

reload(sys)
sys.setdefaultencoding("utf-8")

get_url = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
# allow_redirects=False 禁止重定向
resp = session.get(get_url, headers=headers, allow_redirects=False)


purposurl = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
resp = session.get(purposurl, headers=headers, allow_redirects=False)
buffer = str(resp.text)
getarticlelist = re.compile(r'<td style="overflow:hidden;word-break:break-all;word-wrap:break-word;"\s*([\S\s]*?)\s*</td>')
pagemsg = re.findall(getarticlelist,buffer)
print ('system boot successed')
while True:
        time.sleep(5)
        purposurl1 = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
        resp1 = session.get(purposurl1, headers=headers, allow_redirects=False)
        buffer1 = str(resp1.text)
        getarticlelist1 = re.compile(r'<td style="overflow:hidden;word-break:break-all;word-wrap:break-word;"\s*([\S\s]*?)\s*</td>')
        pagemsg1 = re.findall(getarticlelist1, buffer1)

        for listitem1 in pagemsg1:
                if listitem1 in pagemsg:
                    pass
                else:

                    if '[fix_error]' in listitem1 or '[init_error]' in listitem1 or '[exit_unexpect]' in listitem1 or '[android]' in listitem1 or '[link_error]' in listitem1 or '[FIX_ERROR]' in listitem1 or '[INIT_ERROR]' in listitem1 or '[EXIT_UNEXPECT]' in listitem1 or '[ANDROID]' in listitem1 or '[LINK_ERROR]' in listitem1:
                            pagemsg.append(listitem1)
                    else:
                            pagemsg.append(listitem1)
                            msg = MIMEText(listitem1)
                            msg["Subject"] = listitem1
                            msg["From"] = _user
                            msg["To"] = _to
                            try:
                                    s = smtplib.SMTP_SSL("smtp.qq.com", 465)
                                    s.login(_user, _pwd)
                                    s.sendmail(_user, _to, msg.as_string())
                                    s.quit()
                                    print 'find a new article'
                                    print "Send Email Success!"
                            except smtplib.SMTPException, e:
                                    print "Send Email Falied,%s" % e