python爬虫实时更新数据_Python实现简单的爬虫获取某刀网的更新数据

#!/usr/bin/python

# coding: utf-8

import urllib.request

import re

#定义一个获取网页源码的子程序

head = "www.xiaodao.la"

def get():

data = urllib.request.urlopen('http://www.xiaodao.la').read()

#解码并去除无用文字

str = data.decode("gbk").replace(r"font-weight:bold;","").replace(r" ","").replace(" ","").replace(" ","").replace("\r\n","").replace("#FF0000","#000000").strip()

return str[str.find("好卡售"):str.find("20160303184868786878.gif")]#返回指定内容

#获取一次网页源码并赋值给str

str = get();

#print(str)

#定义正则表达式

#reg = r'href="(.*?)"style="color:#000000;"title="(.*?)"target="_blank">'

reg = r'href="(.*?)"style="color:#000000;"title="(.*?)"target="_blank">(.*?)

(.*?)'

tmp = re.compile(reg);#创建正则表达式

list = re.findall(tmp,str);#正则表达式匹配

list = tuple(list)#转换类型

print("一共匹配到%d个"%(len(list)))#输出匹配数量

#print(list)

for i in range(len(list)):

print("当前第%d个:"%(i+1))

print("标题:%s\n地址:%s更新时间:%s\n"%(list[i][1],head + list[i][0],list[i][3]))

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值