python爬取糗事百科信息 并传入sqllite

# 爬取糗事百科信息。

# 注意:爬取任何一个网站,首先要确定的就是这个网站是静态网站还是动态网站。其次看看这个GET请求是否携带了特殊的参数。最后需要留意请求头中的Cookie信息。

import sqlite3,re
from urllib.request import  Request,urlopen
from fake_useragent import UserAgent
class DataTool(object):
    """
    工具类:对提取的元组中的数据,进行整理,删除无效的字符(\n,<br/>)
    """
    #定义删除\n字符的正则表达式
    pattern_n=re.compile(r'\n',re.S)
    #定义删除<br/>字符的正则表达式
    pattern_br=re.compile(r'<br/>',re.S)

    def process_tuple_data(self,origin_tuple_data):
        """
        用于对提取的原始元组进行数据处理的函数
        :param origin_tuple_data: 原始数据元组
        :return: 返回整理之后的元组
        """
        #需要处理的数据:用户昵称、段子内容
        # sub()是正则表达式中的替换数据的方法,需要将\n这个字符替换成空字符
        # 参数:1.替换规则 2.替换结果 3.要匹配的字符串
        nick_name=re.sub(self.pattern_n,'',origin_tuple_data[0])

        # 处理段子内容
        content=re.sub(self.pattern_n,'',origin_tuple_data[2])
        content=re.sub(self.pattern_br,'',content)

        #将处理后的数据在封装成一个元组,返回
        data=(nick_name,origin_tuple_data[1],content,origin_tuple_data[3],origin_tuple_data[4])
        return data

class DBTool(object):
    """
    将数据保存到数据库中的工具类,主要负责数据库的增删改查操作。
    """
    connect=None
    cursor=None
    #操作数据库:1.创建数据库的链接对象,创建游标,这两个对象一般链接一次即可;2.数据的增删改查;3.关闭数据库对象、关闭游标对象,一般都是在数据保存完毕之后关闭即可。
    @classmethod
    def create_db_cursor(cls):
        cls.connect=sqlite3.connect('qsbk.db')
        cls.cursor=cls.connect.cursor()
    @classmethod
    def insert_sql(cls,tuple_data):
        """
        执行数据插入sql语句的函数
        :param tuple_data: 使用DataTool工具类整理过后的数据。
        :return:
        """
        sql_str='INSERT INTO qs (nick_name,level,content,vote_number,comment_number)VALUES("%s","%s","%s","%s","%s")'%(tuple_data[0],tuple_data[1],tuple_data[2],tuple_data[3],tuple_data[4])
        #开始执行sql语句
        cls.cursor.execute(sql_str)
        cls.connect.commit()
    @classmethod
    def close_db_cursor(cls):
        cls.cursor.close()
        cls.connect.close()


class QSBKSpider(object):
    """
    爬虫类
    """
    def __init__(self):
        # 将各个页面通用的路径,不变的路径声明称为属性,调用方便,直接在这个属性的后面拼接页码。
        self.base_url='https://www.qiushibaike.com/hot/page/'
        #初始化请求头,伪造浏览器请求头中的User-Agent字段值,有一个默认的值User-Agent:Python-3.7 xxx。
        # self.headers={
        #     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
        # }
        #实例化工具类DataTool的对象
        self.tool=DataTool()
        #实例化ua对象
        self.ua=UserAgent()

    def get_list_html(self,page_num):
        """
        获取每一个列表页的html网页源代码(这个获取的源代码就是“右键-网页源代码”中的内容)
        page_num:表示将要请求的页面的页码。
        :return:
        """
        # 构造每一个页码的url地址
        page_url=self.base_url+str(page_num)
        # 向page_url发送GET请求,开始获取当前页page_num的网页源代码
        # 先构造Request请求对象
        headers={
            # random属性:从ie、firfox、Chrome等浏览器的ua中,随机获取一个ua。
            'User-Agent':self.ua.random
        }
        request=Request(page_url,headers=headers)
        try:
            response=urlopen(request)
        except Exception as e:
            print('请求失败:地址{},原因{}'.format(page_url,e))
            return None
        else:
            # try语句中的请求没有出现异常,就会执行else语句,如果出现异常了就不会执行else语句了
            # print(response)
            return response.read().decode()
    def parse_list_html(self,html):
        """
        解析上一个函数请求的html源代码
        :param html: 请求成功返回列表页的网页源代码,请求失败返回None
        :return:
        """
        if html:
            #使用正则表达式开始解析网页源代码
            # 写正则注意事项:
            # 1.尽量找到要匹配的零散数据所在的标签,而且这个标签必须和这些零散的数据一样能够循环喜欢。因为findall()函数在循环匹配数据的时候,是按照整个正则表达式规则循环匹配的。
            # 2.在参考网页中“审查元素”来设置正则匹配规则的时候,一定要确认是否和“网页源代码”中的标签顺序、属性顺序等保持一致,如果不一致的话,必须参考“网页源代码”来设置正则匹配规则。因为“审查元素”中的Html代码是经过JS渲染之后的源代码。
            pattern=re.compile(r'<div class="article block.*?>.*?<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div class="articleGender.*?">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>.*?<i class="number">(.*?)</i>',re.S)
            results_list=re.findall(pattern,html)
            for data in results_list:
                new_data=self.tool.process_tuple_data(data)
                DBTool.insert_sql(new_data)
        else:
            print('html源代码为None')

if __name__=='__main__':
# 创建数据库对象、游标对象
    DBTool.create_db_cursor()

    obj=QSBKSpider()

# 循环爬取多页数据
for x in range(1,10):
    # range()取1到10之间的整数,能取到1,无法取到10
    html=obj.get_list_html(x)
    obj.parse_list_html(html)

# 关闭数据库、游标对象
DBTool.close_db_cursor()

# fake_user_agent:pip install fake_user_agent 这个第三方库,它维护了各种主流浏览器的UA标识。并且会定期的更新这个库。淘汰一些过期的UA。






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机中的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达式 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五子棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机中的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达式 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五子棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值