【爬虫入门】【正则表达式】抓取糗事百科的段子2.0_怎么用正则提取糗事百科内容-CSDN博客

本文链接：https://blog.csdn.net/qq_37252519/article/details/86062757

在原有基础上，增加写入数据库操作和网页翻页操作

import sqlite3, re
from urllib.request import Request, urlopen


class DBTool(object):
    """
    将数据保存到数据库的工具类，主要负责数据库的增删改查操作。
    """
    connect = None  # 类属性需要先声明
    cursor = None

    # 操作数据库：
    #   1.创建数据库的连接对象，创建游标，这两个对象一般连接一次即可；2.数据的增删改查;3.关闭数据库对象、关闭游标对象，一般都是在数据保存完毕之后关闭即可。
    @classmethod
    def create_db_cursor(cls):
        cls.connect = sqlite3.connect('qsbk.db')  # 连接数据库
        cls.cursor = cls.connect.cursor()  # 创建游标

    @classmethod
    def insert_sql(cls, tuple_data):
        """
        执行数据插入sql语句的函数
        :param tuple_data: 使用DataTool工具类整理过后的数据
        :return:
        """
        sql_str = 'INSERT INTO qs(nick_name,level,content,vote_number,connent_number) values ("%s","%s","%s","%s","%s")' % (
        tuple_data[0], tuple_data[1], tuple_data[2], tuple_data[3],tuple_data[4])
        # 开始执行sql语句
        cls.cursor.execute(sql_str)
        cls.connect.commit()

    @classmethod
    def close_db_cursor(cls):
        cls.cursor.close()
        cls.connect.close()

修改QSBKSpider类的parse_list_html(self, html)函数为

class QSBKSpider(object):
    """
    爬虫类
    """
        def parse_list_html(self, html):
        """
        解析上一个函数请求的html源代码
        :param html: 列表页的网页源代码
        :return:
        """
        if html:
            # 使用正则表达式解析网页源代码
            # 写正则注意事项：
            # 1.尽量找到要匹配的零散的数据所在的标签，而且这个标签必须和这些零散的数据一样能够循环。因为findall（）函数在循环匹配数据的时候，是按照整个正则表达式规则循环匹配的。
            # 2.在参考网页中"审查元素"来设置正则匹配规则的时候，一定要确认是否和"网页源代码"中的标签顺序、属性顺序等保持一致，如果不一致的话，必须参考"网页源代码"来设置正则匹配规则。因为"审查元素"中的Html代码是经过Js渲染之后的源代码。
            pattern = re.compile(
                r'<div class="article block.*?>.*?<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div class="articleGender.*?">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>',
                re.S)
            results_list = re.findall(pattern, html)
            for data in results_list:
                new_data = self.tool.process_tuple_data(data)
                # print(new_data)
                DBTool.insert_sql(new_data)
        else:
            print("html源代码为None")

调用修改为

# 创建数据库对象、游标对象
DBTool.create_db_cursor()

obj = QSBKSpider()
#循环爬取多页数据
for x in range(1,10):
    #range()取[1，10）之间的整数，能取1，无法取到10
    html = obj.get_list_html(x)
    obj.parse_list_html(html)

# 关闭数据库对象、游标对象
DBTool.close_db_cursor()