在原有基础上,增加写入数据库操作和网页翻页操作
import sqlite3, re
from urllib.request import Request, urlopen
class DBTool(object):
"""
将数据保存到数据库的工具类,主要负责数据库的增删改查操作。
"""
connect = None # 类属性需要先声明
cursor = None
# 操作数据库:
# 1.创建数据库的连接对象,创建游标,这两个对象一般连接一次即可;2.数据的增删改查;3.关闭数据库对象、关闭游标对象,一般都是在数据保存完毕之后关闭即可。
@classmethod
def create_db_cursor(cls):
cls.connect = sqlite3.connect('qsbk.db') # 连接数据库
cls.cursor = cls.connect.cursor() # 创建游标
@classmethod
def insert_sql(cls, tuple_data):
"""
执行数据插入sql语句的函数
:param tuple_data: 使用DataTool工具类整理过后的数据
:return:
"""
sql_str = 'INSERT INTO qs(nick_name,level,content,vote_number,connent_number) values ("%s","%s","%s","%s","%s")' % (
tuple_data[0], tuple_data[1], tuple_data[2], tuple_data[3],tuple_data[4])
# 开始执行sql语句
cls.cursor.execute(sql_str)
cls.connect.commit()
@classmethod
def close_db_cursor(cls):
cls.cursor.close()
cls.connect.close()
修改QSBKSpider类的parse_list_html(self, html)函数为
class QSBKSpider(object):
"""
爬虫类
"""
def parse_list_html(self, html):
"""
解析上一个函数请求的html源代码
:param html: 列表页的网页源代码
:return:
"""
if html:
# 使用正则表达式解析网页源代码
# 写正则注意事项:
# 1.尽量找到要匹配的零散的数据所在的标签,而且这个标签必须和这些零散的数据一样能够循环。因为findall()函数在循环匹配数据的时候,是按照整个正则表达式规则循环匹配的。
# 2.在参考网页中"审查元素"来设置正则匹配规则的时候,一定要确认是否和"网页源代码"中的标签顺序、属性顺序等保持一致,如果不一致的话,必须参考"网页源代码"来设置正则匹配规则。因为"审查元素"中的Html代码是经过Js渲染之后的源代码。
pattern = re.compile(
r'<div class="article block.*?>.*?<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div class="articleGender.*?">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>',
re.S)
results_list = re.findall(pattern, html)
for data in results_list:
new_data = self.tool.process_tuple_data(data)
# print(new_data)
DBTool.insert_sql(new_data)
else:
print("html源代码为None")
调用修改为
# 创建数据库对象、游标对象
DBTool.create_db_cursor()
obj = QSBKSpider()
#循环爬取多页数据
for x in range(1,10):
#range()取[1,10)之间的整数,能取1,无法取到10
html = obj.get_list_html(x)
obj.parse_list_html(html)
# 关闭数据库对象、游标对象
DBTool.close_db_cursor()