爬虫系列：使用 MySQL 存储数据

最新推荐文章于 2024-08-02 20:52:01 发布

爬虫专业户

最新推荐文章于 2024-08-02 20:52:01 发布

阅读量701

点赞数

文章标签： mysql 爬虫数据库

本文链接：https://blog.csdn.net/oHuangBing/article/details/121828999

版权

本文详细介绍了如何将爬虫采集的数据存储到MySQL数据库中，包括MySQL的安装、基本命令操作以及如何使用Python的PyMySQL库进行数据交互。通过示例展示了创建数据库、数据表，以及INSERT、SELECT、UPDATE、DELETE等SQL语句的使用。

摘要由CSDN通过智能技术生成

上一篇文章我们讲解了爬虫如何存储 CSV 文件，这篇文章，我们讲解如何将采集到的数据保存到 MySQL 数据库中。

MySQL 是目前最受欢迎的开源关系型数据库管理系统。一个开源项目具有如此之竞争力实在是令人意外，它的流行程度正在不断地接近两外两个闭源的商业数据库系统：微软的 SQL Server 和甲骨文的 Oracle 数据库（MySQL 在2010年被甲骨文收购）。

它的流行程度名符其实。对于大多数应用来说，MySQL 都是不二选择。他是一种非常灵活、稳定、功能齐全的 DBMS，许多顶级的网站都在使用它：Youtube、Twitter 和 Facebook 等。

因为它受众广泛，免费，开箱即用，所以它是网络数据采集项目中常用的数据库，这篇文章我们介绍如何通过 MySQL 存储采集到的数据。

安装 MySQL

如果你第一次接触 MySQL，可能会觉得有点麻烦。其实，安装方法和安装其他软件一样简单。归根结底，MySQL 就是由一系列数据文件构成的，存储在你远端服务器或者本地电脑上，里面包含了数据库存储的所有信息。

Windows 安装 MySQL、Ubuntu 安装 MySQL、MAC 安装 MySQL 具体步骤在此：全平台安装 MySQL

在此不做过多说明，按照视频操作就可以了。

基本命令

MySQL 服务器启动之后，有很多种方法可以与数据库服务器交互。因为有很多工具是图形界面，所以你可以不用 MySQL 的命令行（或是很少用命令行）也能管理数据库。像 phpMyAdmin 和 MySQL Workbench 这类工具可以很容易地实现数据库查看、排序和新建等工作。但是，掌握命令行操作数据库还是很重要的。

除了用户自定义变量名，MySQL 是不区分大小写的。例如，SELECT 和 select 是一样的，不过习惯上写 MySQL 语句的时候所有的 MySQL 关键词都用大写。大多数开发者还喜欢用小写字母表示数据库和数据表的名称。

首先登入 MySQL 数据库的时候，里面是没有数据库存放数据的。我们需要创建一个数据库：

CREATE DATABASE scraping_article DEFAULT CHARACTER SET UTF8 COLLATE UTF8_GENERAL_CI;

因为每个 MySQL 实例可以有多个数据库，所以使用某个数据库之前需要指定数据库的名称：

USE scraping_article

从现在开始（直到关闭 MySQL 链接或切换到另一个数据库之前），所有的命令都运行在这个新的“scraping_article”数据库里面。

所有操作都看起来非常简单。那么在数据库里面新建表的操作方法也应该类似吧？我们在库里面新建一张表来存储采集的网页文章数据：

CREATE TABLE articles;

结果显示错误：

ERROR 1113 (42000): A table must have at least 1 column

和数据库不同，MySQL 数据表必须有一列，否则不能创建。为了在 MySQL 里定义字段（数据列），我们还必须在 CREATE TABLE 语句后面，把字段定义放进一个带括号的、内部由逗号分隔的列表中：

create table articles
(
    id                   int auto_increment
        primary key,
    title                varchar(64)                        null,
    body                 text                               null,
    summary              varchar(256)                       null,
    body_html            text                               null,
    create_time          datetime default CURRENT_TIMESTAMP null,
    time_updated         datetime