Python通过HTTP协议定期抓取文件

本文介绍了一个使用Python编写的简单定时抓取工具。该工具能够针对指定URL进行周期性的内容检查和抓取,利用HTTP请求头If-Modified-Since来判断远程资源是否已更新。如果资源未更改,则返回304状态码;若已更新,则获取新内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

可以扩充成为简单的抓取工具,定时抓取


#!usr/bin/python

import urllib2,time;
class ErrorHandler(urllib2.HTTPDefaultErrorHandler):
    
def http_error_default(self, req, fp, code, msg, headers):
        result 
= urllib2.HTTPError(req.get_full_url(), code, msg, headers, fp)
        result.status 
= code
        
return result

URL
='http://www.ibm.com/developerworks/js/ajax1.js'
req
=urllib2.Request(URL)
mgr
=urllib2.build_opener(ErrorHandler())

while True:
    ns
=mgr.open(req)
    
if(ns.headers.has_key('last-modified')):
        modified
=ns.headers.get('last-modified')
    
if(ns.code==304):
        
print '''
          ==============================
              NOT MODIFIED
          ==============================
        
'''
    
elif(ns.code==200):
        
print ns.read()
    
else:
        
print 'there is an error';
        
    
if(not locals().has_key('modified')):
        modified
=time.time();
    req.add_header(
'If-Modified-Since',modified)
    time.sleep(
10)
 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值