【爬虫入门】【正则表达式】抓取糗事百科的段子2.0

在原有基础上,增加写入数据库操作和网页翻页操作

import sqlite3, re
from urllib.request import Request, urlopen


class DBTool(object):
    """
    将数据保存到数据库的工具类,主要负责数据库的增删改查操作。
    """
    connect = None  # 类属性需要先声明
    cursor = None

    # 操作数据库:
    #   1.创建数据库的连接对象,创建游标,这两个对象一般连接一次即可;2.数据的增删改查;3.关闭数据库对象、关闭游标对象,一般都是在数据保存完毕之后关闭即可。
    @classmethod
    def create_db_cursor(cls):
        cls.connect = sqlite3.connect('qsbk.db')  # 连接数据库
        cls.cursor = cls.connect.cursor()  # 创建游标

    @classmethod
    def insert_sql(cls, tuple_data):
        """
        执行数据插入sql语句的函数
        :param tuple_data: 使用DataTool工具类整理过后的数据
        :return:
        """
        sql_str = 'INSERT INTO qs(nick_name,level,content,vote_number,connent_number) values ("%s","%s","%s","%s","%s")' % (
        tuple_data[0], tuple_data[1], tuple_data[2], tuple_data[3],tuple_data[4])
        # 开始执行sql语句
        cls.cursor.execute(sql_str)
        cls.connect.commit()

    @classmethod
    def close_db_cursor(cls):
        cls.cursor.close()
        cls.connect.close()

修改QSBKSpider类的parse_list_html(self, html)函数为

class QSBKSpider(object):
    """
    爬虫类
    """
        def parse_list_html(self, html):
        """
        解析上一个函数请求的html源代码
        :param html: 列表页的网页源代码
        :return:
        """
        if html:
            # 使用正则表达式解析网页源代码
            # 写正则注意事项:
            # 1.尽量找到要匹配的零散的数据所在的标签,而且这个标签必须和这些零散的数据一样能够循环。因为findall()函数在循环匹配数据的时候,是按照整个正则表达式规则循环匹配的。
            # 2.在参考网页中"审查元素"来设置正则匹配规则的时候,一定要确认是否和"网页源代码"中的标签顺序、属性顺序等保持一致,如果不一致的话,必须参考"网页源代码"来设置正则匹配规则。因为"审查元素"中的Html代码是经过Js渲染之后的源代码。
            pattern = re.compile(
                r'<div class="article block.*?>.*?<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div class="articleGender.*?">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>',
                re.S)
            results_list = re.findall(pattern, html)
            for data in results_list:
                new_data = self.tool.process_tuple_data(data)
                # print(new_data)
                DBTool.insert_sql(new_data)
        else:
            print("html源代码为None")

调用修改为

# 创建数据库对象、游标对象
DBTool.create_db_cursor()

obj = QSBKSpider()
#循环爬取多页数据
for x in range(1,10):
    #range()取[1,10)之间的整数,能取1,无法取到10
    html = obj.get_list_html(x)
    obj.parse_list_html(html)

# 关闭数据库对象、游标对象
DBTool.close_db_cursor()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值