上一篇文章我们讲解了爬虫如何存储 CSV 文件,这篇文章,我们讲解如何将采集到的数据保存到 MySQL 数据库中。
MySQL 是目前最受欢迎的开源关系型数据库管理系统。一个开源项目具有如此之竞争力实在是令人意外,它的流行程度正在不断地接近两外两个闭源的商业数据库系统:微软的 SQL Server 和甲骨文的 Oracle 数据库(MySQL 在2010年被甲骨文收购)。
它的流行程度名符其实。对于大多数应用来说,MySQL 都是不二选择。他是一种非常灵活、稳定、功能齐全的 DBMS,许多顶级的网站都在使用它:Youtube、Twitter 和 Facebook 等。
因为它受众广泛,免费,开箱即用,所以它是网络数据采集项目中常用的数据库,这篇文章我们介绍如何通过 MySQL 存储采集到的数据。
安装 MySQL
如果你第一次接触 MySQL,可能会觉得有点麻烦。其实,安装方法和安装其他软件一样简单。归根结底,MySQL 就是由一系列数据文件构成的,存储在你远端服务器或者本地电脑上,里面包含了数据库存储的所有信息。
Windows 安装 MySQL、Ubuntu 安装 MySQL、MAC 安装 MySQL 具体步骤在此:全平台安装 MySQL
在此不做过多说明,按照视频操作就可以了。
基本命令
MySQL 服务器启动之后,有很多种方法可以与数据库服务器交互。因为有很多工具是图形界面,所以你可以不用 MySQL 的命令行(或是很少用命令行)也能管理数据库。像 phpMyAdmin 和 MySQL Workbench 这类工具可以很容易地实现数据库查看、排序和新建等工作。但是,掌握命令行操作数据库还是很重要的。
除了用户自定义变量名,MySQL 是不区分大小写的。例如,SELECT 和 select 是一样的,不过习惯上写 MySQL 语句的时候所有的 MySQL 关键词都用大写。大多数开发者还喜欢用小写字母表示数据库和数据表的名称。
首先登入 MySQL 数据库的时候,里面是没有数据库存放数据的。我们需要创建一个数据库:
CREATE DATABASE scraping_article DEFAULT CHARACTER SET UTF8 COLLATE UTF8_GENERAL_CI;
因为每个 MySQL 实例可以有多个数据库,所以使用某个数据库之前需要指定数据库的名称:
USE scraping_article
从现在开始(直到关闭 MySQL 链接或切换到另一个数据库之前),所有的命令都运行在这个新的“scraping_article”数据库里面。
所有操作都看起来非常简单。那么在数据库里面新建表的操作方法也应该类似吧?我们在库里面新建一张表来存储采集的网页文章数据:
CREATE TABLE articles;
结果显示错误:
ERROR 1113 (42000): A table must have at least 1 column
和数据库不同,MySQL 数据表必须有一列,否则不能创建。为了在 MySQL 里定义字段(数据列),我们还必须在 CREATE TABLE 语句后面,把字段定义放进一个带括号的、内部由逗号分隔的列表中:
create table articles
(
id int auto_increment
primary key,
title varchar(64) null,
body text null,
summary varchar(256) null,
body_html text null,
create_time datetime default CURRENT_TIMESTAMP null,
time_updated datetime