python 测试网页

·思路简介: 

  时间是关键, 如果能抓准服务器的时间, 可以说胜算将得到很大的提高, 如何抓取服务器时间? 我们知道在通过HTTP对服务器发起请求时, 在响应的服务器头文件中包含所请求网页的相关条件信息, 其中有个Date头域, 里面记录着相关的时间, 我们就通过这个来获取cnblogs的服务器时间。

#!/usr/bin/python
#-------------------------------------------------------------------------------
# Name:        GrabBook.py
# Purpose:
#
# Author:      Mr.Wid
#
# Created:     22-10-2012
# Copyright:   (c) Mr.Wid 2012
# Licence:     GNU GPL
#-------------------------------------------------------------------------------

import re
import time
import urllib
import urllib2
import httplib
import cookielib

username = 'mr_wid'               #你的用户名, 改为你的
password = 'xxxxxxxx'             #你的密码

#先定义好编码转换函数
def en(x):
    return x.encode('utf-8')

def cn(x):
    return x.decode('utf-8')

#获取cnblogs服务器时间
def GetCnblogsServerTime():
    """获取cnblogs服务器时间
    GetCnblogsServerTime() -> list

    NOTE: 原理是通过服务器头文件响应获取服务器时间
    """
    conn = httplib.HTTPConnection( 'www.cnblogs.com' )
    conn.request( 'GET', '/' )
    response = conn.getresponse()
    ts =  response.getheader('date')
    ltime = time.strptime( ts[5:25], '%d %b %Y %H:%M:%S' )         #按照特定时间格式将字符串转换为时间类型
    serverTime =  time.strftime( '%H:%M:%S',
        time.localtime(time.mktime(ltime)+ 8*3600 )).split(':')    #将GMT时间转换为北京时间并以列表形式返回, -> [ hour, minute, second ]
    return serverTime


#登录博客园
def cnblogs_login():
    """登录博客园
    cnblogs_login() -> None
    """
    params_post = urllib.urlencode({
        '__EVENTTARGET': '',
        '__EVENTARGUMENT': '',
        '__VIEWSTATE': r'/wEPDwULLTE1MzYzODg2NzZkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcm1QYDyKKI9af4b67Mzq2xFaL9Bt',
        '__EVENTVALIDATION': r'/wEWBQLWwpqPDQLyj/OQAgK3jsrkBALR55GJDgKC3IeGDE1m7t2mGlasoP1Hd9hLaFoI2G05',
        'tbUserName':en(username),
        'tbPassword':en(password),
        'btnLogin':en('登录')
})
    cookie=cookielib.CookieJar()
    opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
    urllib2.install_opener(opener)
    login_response=urllib2.urlopen('http://passport.cnblogs.com/login.aspx?',params_post)

#给大叔发表一条评论
def PuhsishContent( content ):
    """给大叔发表一条评论
    PuhsishContent( string content ) -> None
    """
    comment_post = urllib.urlencode({
        '__VIEWSTATE':en('/wEPDwUJNDYwODU2NjU1ZGQ='),
        'txbComment': en(content),
        'btnSubmint': en('提交评论')
    })
    page = urllib2.urlopen( r'http://m.cnblogs.com/mobileAddComment.aspx?id=101461&entry=2733027', comment_post )
    data = page.read()
    page.close()
    print cn( data )

#开始抢书
def PuhsishContentInTime():
    luckHour = [ 10, 12, 14, 16, 18, 20 ]        #这是幸运小时数
    cnblogs_login()                                 #登录博客园
    while True:
        serverTime = GetCnblogsServerTime()         #获取服务器时间
        print serverTime
        if int(serverTime[0]) in luckHour and int(serverTime[1]) == 59:     #当最新评论的分钟数为59分59秒时准备抢书
            for i in range( int(serverTime[2]), 60 ):    #进入最后倒计时阶段
           time.sleep(1)
            time.sleep(0.75)                    #在59分59秒750毫秒时开始提交评论, 可自行调节毫秒数, sleep参数单位为秒
            PuhsishContent( '大叔我来抢书啦~抢抢抢抢抢......' )
            print '抢书任务完成, 下一轮抢书任何将在55分钟后自动执行, 等待...'
            time.sleep(55 * 60)                 #休息55分钟, 汤姆大叔说了, 连评无效
    #time.sleep(1)     #休息1秒再获取服务器时间


#执行抢书动作
PuhsishContentInTime()          #这次真可以慢慢挂这个抢书了, 挂三天说不定就真有了!

 

 time.sleep(0.75)                    #59分59秒后延迟750毫秒后开始抢书, 可自行调节毫秒数, sleep参数为秒

这行就是可自行调节的毫秒数, 输入小数表示毫秒级。

 

提示: 这里是使用了一个while True的死循环, 在获取时间是会产生大量的请求, 如果cnblogs一定时间内的请求数量有限制的话, 可以在while True里加上time.sleep(1)休息一秒再获取服务器时间, 对抢书的动作执行是没多大影响的, 在示例代码中我已将该句添加, 但是又将其注释掉了,

#time.sleep(1)   ##休息1秒再获取服务器时间

 

这样就会产生大量的请求, 注释掉的原因是为了可以方便的查看每秒能产生多少次请求, 即每秒与服务器时间校对的频率, wid这平均每秒校对15次左右, 确保时间与服务器同步, 剩下的就仅是网络的延迟问题了。

 

来自:http://www.cnblogs.com/mr-wid/archive/2012/10/22/2734695.html

### 回答1: Python是一种强大的编程语言,可以用于检测网页内容的更新。实现这个目标的方法取决于您要监控的网页。以下是一些实现这个目标的方法: 1.使用BeautifulSoup库:BeautifulSoup是一个Python库,可用于从HTML和XML文件中提取数据。可以使用BeautifulSoup库解析网页,并检查是否有更改。您可以编写Python脚本来访问网站,并使用BeautifulSoup库处理网页代码,以便确定它是否已更新。 2.使用Selenium Webdriver:Selenium是一种自动化测试工具,可以与Python集成。使用Selenium,您可以打开一个网页并搜索特定元素(例如页面标题或特定文本)。如果这些元素发生更改,则可以编写脚本来发送通知或执行其他操作。 3.使用API:一些网站拥有公开的API,可以用Python编写程序调用它们并获得最新的信息。如果网站拥有API,则应使用它来获取数据,而不是实时处理它。 以上是几种用Python检测网页内容更新的方法。您应该根据您要监控的特定网站和您的目标选择其中的一种方法。无论您选择哪种方式,您需要编写Python脚本,并将其设置为定期运行,以确保您在网页更新时及时收到通知。 ### 回答2: Python是一种常用的编程语言,可用于网页内容更新的检测及相关操作。检测网页内容更新的方法包括两种:爬虫和RSS订阅。 爬虫方式需要使用Python的requests和beautifulsoup库或者Scrapy框架,先要获取网页的HTML文件,然后解析文件中的内容,通过比较前后两个版本之间某些特定标签的变化,来判断网页内容是否发生更新。如果有更新,则可以发送邮件或进行其他相关操作。 RSS订阅方式需要先将网页的RSS链接订阅到一个RSS阅读器中。Python中的feedparser库可以读取和解析RSS源。可以通过遍历新的RSS项来检测网页内容是否有更新,新的RSS项通常带有时间和标题等信息。如果有更新,则可以发送邮件给用户或进行其他类似的通知操作。 总的来说,用Python检测网页内容更新需要了解HTML网页和RSS的基本结构和内容,以及Python的相关库和框架的使用方法。通过合理的方式检测网页更新,可以及时获取重要信息,提高工作效率。 ### 回答3: Python作为一种广泛使用的编程语言,可以用于检测网页内容的更新。开发人员可以使用Python开发脚本来获取网页内容并与以前的版本进行比较,以检测是否有更新。 Python有许多库可以用于检测网页内容的更新。例如,requests库可用于向网站发送请求并获取页面的源代码。使用BeautifulSoup库可以解析HTML页面,查找和提取所需信息。另一个类似的库是Scrapy,它是一种快速的网络爬虫框架,可以帮助用户定期抓取并监视网络上的数据更新。 基于Python的网络监测工具可以定期检查网站的更新情况,并在数据更新时发送通知。例如,可以使用SMTP库在更新时向开发人员发送电子邮件或在Slack等协作工具中发送消息,以便他们及时了解信息。 除了监测内容更新外,还有其他用途。例如,基于Selenium库可以进行网站自动化测试,以验证一些较大规模的web应用程序中的各种功能是否正常运行。 总之,Python是一种多功能的编程语言,可用于检测网页内容更新,自动化测试,数据分析等多种用途。它具有灵活性,易于使用,并且有许多支持库,因此是许多开发人员的首选编程语言。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值