Python3爬取百科词条+导入MySQL数据库_用python爬百度百科词条解释-CSDN博客

本文链接：https://blog.csdn.net/github_36498175/article/details/73525426

本文介绍了使用Python3构建爬虫爬取Python百度词条信息，并存储到MySQL5.7数据库的过程。涉及的工具包括Pycharm、MySQL、SQLyog，详细讲解了从连接数据库、创建表到爬虫架构的具体流程，包括URL管理、网页下载、解析和输出等步骤。最终实现了数据成功入库的目标。

摘要由CSDN通过智能技术生成

本文主要介绍使用Python爬虫爬取Python百度词条的信息主要参考慕课网的《开发简单爬虫》以及一些数据库操作

开发工具

—工欲善其事必先利其器

首先这里开发工具用的Python3.6+Pycharm+MySQL5.7+SQLyog
前面2个的安装直接网上搜下教程一大堆而且免去了配置环境变量的操作，MySQL数据库(安装教程也一大堆)现在最新版是5.7 它的安装与之前的有点不同
图片发自简书App

注意到没安装时多了一个选项安装InnoDB时设置password 然后再填入即可其它步骤和一般软件没什么区别
然后去搜索引擎下载SQLyog工具(用Pycharm自带的dataBase应该也可以有兴趣的小伙伴可以去试试 ) 连接数据库
图片发自简书App
点击连接出错的可以看看进入控制面板→管理工具→服务→看MySQL service是否打开连接好后创建数据库baikeurl 然后建url表
再建立4个栏位分别是 id urlname urlhref urlcontent

爬虫的架构及具体流程

1.传入目标url后调用URL管理器
2.URL管理器对URL进行具体的判断与检索后传入网页下载器
3.网页下载器工作后将网页传入网页解析器
4.将解析后的内容(url，title，content等)传入输出器
5.最后输出器进行数据操作(写入文件导入数据库等)
整个过程采用了严格的面向对象思想每一过程具体的函数都封装在相应文件中
图片发自简书App

图片发自简书App

实例分析

要爬取的链接:http://baike.baidu.com/item/Python
通过浏览器的开发者工具分析可知百度百科的词条
链接:/item/……的形式
标题:

……

内容:

……

废话不多说直接上代码关键地方带注释一个包括5个文件

爬虫调度端(主页)

spider.py文件

import html_downloader
import html_outputer
import html_parser
import url_manager

#爬虫主函数
class SpiderMain(object):
    def __init__(self):
        self.urls = url_manager.UrlManager()
        self.downloader = html_dow