python模拟翻页+提取相关信息

代码不全
# coding=utf-8
import urllib,urllib2
import re

class QSBK:
    #初始化函数
    def _init_(self):
        self.pageIndex = 1
        self.user_agent = ''
        self.headers = {'User-Agent':self.user_agent
        self.stories = []

    #获取网页代码
    def getpage(self,pageIndex):
        try:
            url='http://www.qiushibaike.com/hot/page/'+str(pageIndex)
            request = urllib2.Request(url,headers=self.headers)
            respons = urllib2.urlopen(request)
            return respons.read()
        except Exception,e:
            print e

    def getpageItems(self,pageIndex):
        pagecode = self.getpage(pageIndex)
        if not pagecode:
            print '页面加载失败'
            return None
        pattern = re.compile(,re.S)
        items = re.findall(pattern, pagecode)
        pageStories = []
        for item in items:
            pageStories.append(item[0],item[1],item[2],item[3])
            print '作者:',item[0]
            print '内容:',item[1]
            print '阅读:',item[2]
            print '评论:',item[3]
        return pageStories


    def loadpage(self):
        if



spider = QSBK()
spider.getpage(1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值