python抓取初步尝试

pattern用了示例中例子,发现有些不对,自己修改了一下pattern


import urllib
import urllib2
import re

page =1
url = "xxxxxxxx"+str(page)

user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User-Agent' : user_agent }

try:
    request = urllib2.Request(url,headers=headers)
    response = urllib2.urlopen(request)
    # filehandler = open("qiushi.html","w")
    # filehandler.write(response.read())
    content = response.read()

    #the original filter
    # pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>(.*?)</a>.*?<div.*?class' +
    #                      '="content".*?title="(.*?)">(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',
    #                      re.S)

    pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?</a>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',
                         re.S)


    items = re.findall(pattern, content)
    for item in items:
        print item[0]
        print item[1]
        print item[4]

    #print  response.read()
except urllib2.URLError,e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

返回结果如下(只列举部分内容):

八妹~小尤物
今天我姐和我说,她丢人丢大发了。我问她怎么了,她说她带小外甥去游乐场玩,也想玩那种滚筒式的滑滑梯。趁工作人员不注意就滑了一下,没想到卡在了中间,几个工作人员费了好大的劲才把她拔出来!
5044
好笑人
超市打折。。。
374
匪徒~宠儿
经理带着他的宠物狗来公司,狗狗跑到我办工桌下蹲着就不走了。不管经理怎么叫也不出来,于是经理对狗狗说:“她不是单身狗,她有男朋友了。”   那狗成精了,爬起来就跑。。
4222
如风(^_^)
早起停电,老妈打电话问,答复是电路故障。我手机没电有点捉急,老妈说,不要急啊,电工一定第一时间修好的,他老婆在附近开了小饭馆,没电做不了饭,他比你急……
2593
八妹~小尤物
晚上我爸打电话给我,着急的说:“你妈出去买宵夜了,出门两个小时了还没回来,手机也打不通。”<br/>当时我就急了,说咋办啊?<br/>我爸说:“你快打电话给她,真怕她吃完了空着手回来!”
2833



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值