python检测网页是否有日常链接

python检测网页是否有日常链接

python检测网页是否有日常链接

     在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的,来实现测试和线上正式环境的隔离,这种情况下,就难免会碰到秀逗了把测试的链接发布到线上的情况,一般这种都是通过一些测试的检查工具来检查链接来规避风险的。前两天跟了一个问题也是这个情况,开发疏忽把日常url发布到线上了。但是测试那边没有自动化的监控工具,导致没有及时发现,由于最近正好在看python,后来处理完回家就想用python做个简单的监控。

     大略思路是:用python写一个脚本来分析网页里的所有url,看是否包含日常的链接,然后把脚本放到crontab里跑定时任务,10分钟跑一次检查。如果发现非法链接,就发告警邮件给相关人员。脚本代码100行左右,比较好理解,贴上代码。

  本来想用beautifulsoup,不过考虑到安装三方库麻烦,所以还是用自带的sgmllib来,不需要关心库。发邮件函数没有实现,根据各自的smtp服务器实现以下即可。

#!/usr/bin/env python
#coding:UTF-8

import urllib2
from sgmllib import SGMLParser
import smtplib
import time
#from email.mime.text import MIMEText
#from bs4 import BeautifulSoup
#import re

class UrlParser(SGMLParser):
    urls = []
    def do_a(self,attrs):
        '''parse tag a'''
        for name,value in attrs:
            if name=='href':
                self.urls.append(value)
            else:
                continue
    
    def do_link(self,attrs):
        '''parse tag link'''
        for name,value in attrs:
            if name=='href':
                self.urls.append(value);
            else:
                continue

def checkUrl(checkurl, isDetail):
    '''检查checkurl对应的网页源码是否有非法url'''
    parser = UrlParser()
    page = urllib2.urlopen(checkurl)
    content = page.read()
    #content = unicode(content, "gb2312").encode("utf8")
    parser.feed(content)
    urls = parser.urls
    
    dailyUrls = []
    detailUrl = ""
    for url in urls:
        if 'daily' in url:
            dailyUrls.append(url);
        if not detailUrl and not isDetail and 'www.bc5u.com' in url:
            detailUrl = url
    
    page.close()
    parser.close()
    
    if isDetail:
        return dailyUrls
    else:
        return dailyUrls,detailUrl

def sendMail():
    '''发送提醒邮件'''
    pass
    
def log(content):
    '''记录执行日志'''
    logFile = 'checkdailyurl.log'
    f = open(logFile,'a')
    f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'\n')
    f.flush()
    f.close()

def main():
    '''入口方法'''
    #检查ju
    url = "www.bc5u.com"

    dailyUrls,detailUrl=checkUrl(url, False)
    if dailyUrls:
        #检查到daily链接,发送告警邮件
        sendMail()
        log('check: find daily url')
    else:
        #没检查到daily链接,不处理
        log('check: not find daily url')

    #检查judetail
    dailyUrls=checkUrl(detailUrl, True)
    if dailyUrls:
        #检查到daily链接,发送告警邮件
        log('check: find daily url')
        sendMail()
    else:
        #没检查到daily链接,不处理
        log('check: not find daily url')

if __name__ == '__main__':
    main()



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值