爬虫实战--糗事百科

最新推荐文章于 2017-07-05 15:42:18 发布

飞碟说

最新推荐文章于 2017-07-05 15:42:18 发布

阅读量530

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/i_can_do_1098/article/details/51883382

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

闲来无聊，在网上按照教程写了一个Python爬虫，就是窃取数据然后保存下来爬虫实战–糗事百科。从糗百上爬取段子，然后输出到console，我改了一下保存到了数据库。
不扯没用的，直接上代码：

这是爬取得部分

#!/usr/bin/python
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
import thread
import time
import QsbkDb

class QSBK:
    def __init__(self):
        self.db = QsbkDb.CQsbkDb("database", "user", "password")
        self.db.connect_db()
        self.pageIndex = 1
        self.user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
        self.headers = {'User-Agent' :self.user_agent}

    def __del__(self):
        self.db.close_db()

    def getPage(self,pageIndex):
        try:
            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)
            request = urllib2.Request(url,headers=self.headers)
            response = urllib2.urlopen(request)
            pageCode = response.read().decode('utf-8')
            return pageCode
        except urllib2.URLError,e:
            if hasattr(e,"reason"):
                print "error",e.reason
            if hasattr(e, "code"):
                print "code",e.code
                return None

    def getPageItems(self,pageIndex):
        pageCode = self.getPage(pageIndex)
        if not pageCode:
            print "page load error"
            return None
        pattern = re.compile('h2>(.*?)</h2.*?content">(.*?)</.*?number">(.*?)</',re.S)
        items = re.findall(pattern,pageCode)
        pageStories = []
        for item in items:
            pageStories.append([item[0].strip(),item[1].strip(),item[2].strip()])
        return pageStories

    def insert_db(self, author, support, context):
        _command = 'insert into Jokes(author,support, context)values(\'%s\', %d, \'%s\')'%(author, int(support), context)
        #print _command
        self.db.execute_db(_command)

    def cawler(self):
        self.db.execute_db('truncate table Jokes')
        for index in range(1,36):
            pageStore = self.getPageItems(index)

            if pageStore == None:
                print "Load page "+ str(index) +" failure\r\n"
                continue

            for store in pageStore:
                page = index
                try:
                    #print u"第%d页\t发布人：%s\t 赞：%s\n%s\r\n" %(page,store[0],store[2],store[1])
                    self.insert_db(store[0], store[2], store[1])
                except Exception as e:
                    print "reson",e.message

            del pageStore
            time.sleep(1) #这个地方一定不要干掉

time.sleep（1）睡一下不是白睡的，如果不加这个服务器会作出判断，认为你是DDOS攻击（因为我们一直在request），有的网站会这样，而有的网站则不会。

这是数据库操作部分：

#!/usr/bin/python
 # -*- coding:utf-8 -*- 
import MySQLdb

class CQsbkDb:
    def __init__(self, name, user, passwd):
        self.db_name = name
        self.db_usr = user
        self.db_psw = passwd

    def connect_db(self):
        self.db_connect = MySQLdb.connect("localhost", self.db_usr, self.db_psw, self.db_name, charset='utf8')
        self.db_connect.select_db('qsbk') #你存放糗百的数据库
    def close_db(self):
        self.db_connect.close()

    def execute_db(self, command):
        _cursor = self.db_connect.cursor()
        try:
            _cursor.execute(command)
            self.db_connect.commit()
            _cursor.close()
        except Exception as e:
            print e.message
            self.db_connect.rollback()

lz用的是mysql数据库，数据库的操作网上一抓一大把，我就不多说了。
先说一下表的结构：
名字叫做 Jokes：
数据表

key是插入的编号num，设置为auto_increment自增模式，所以我们可以看见在QSBK中insert_db函数中num项为空，它会自己设置不用管。
num：段子编号 key
author：作者
support：点赞数
context：段子内容

这里面有个需要注意的问题就是建表的时候你要让author和context支持中文gbk。

alter table Jokes modify context text character set gbk;

alter table Jokes modify author text character set gbk;

以上基本就是这些了，目前仅支持文本段子，不支持图片。
运行结果：

飞碟说

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫实战--糗事百科

闲来无聊，在网上按照教程写了一个Python爬虫，就是窃取数据然后保存下来爬虫实战–糗事百科。从糗百上爬取段子，然后输出到console，我改了一下保存到了数据库。不扯没用的，直接上代码：这是爬取得部分#!/usr/bin/python# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimpo
复制链接

扫一扫