pattern用了示例中例子,发现有些不对,自己修改了一下pattern
import urllib
import urllib2
import re
page =1
url = "xxxxxxxx"+str(page)
user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User-Agent' : user_agent }
try:
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
# filehandler = open("qiushi.html","w")
# filehandler.write(response.read())
content = response.read()
#the original filter
# pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>(.*?)</a>.*?<div.*?class' +
# '="content".*?title="(.*?)">(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',
# re.S)
pattern = re.compile('<div.*?class="author.*?>.*?<a.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?</a>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',
re.S)
items = re.findall(pattern, content)
for item in items:
print item[0]
print item[1]
print item[4]
#print response.read()
except urllib2.URLError,e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
返回结果如下(只列举部分内容):
八妹~小尤物
今天我姐和我说,她丢人丢大发了。我问她怎么了,她说她带小外甥去游乐场玩,也想玩那种滚筒式的滑滑梯。趁工作人员不注意就滑了一下,没想到卡在了中间,几个工作人员费了好大的劲才把她拔出来!
5044
好笑人
超市打折。。。
374
匪徒~宠儿
经理带着他的宠物狗来公司,狗狗跑到我办工桌下蹲着就不走了。不管经理怎么叫也不出来,于是经理对狗狗说:“她不是单身狗,她有男朋友了。” 那狗成精了,爬起来就跑。。
4222
如风(^_^)
早起停电,老妈打电话问,答复是电路故障。我手机没电有点捉急,老妈说,不要急啊,电工一定第一时间修好的,他老婆在附近开了小饭馆,没电做不了饭,他比你急……
2593
八妹~小尤物
晚上我爸打电话给我,着急的说:“你妈出去买宵夜了,出门两个小时了还没回来,手机也打不通。”<br/>当时我就急了,说咋办啊?<br/>我爸说:“你快打电话给她,真怕她吃完了空着手回来!”
2833