爬虫系列:使用 MySQL 存储数据

本文详细介绍了如何将爬虫采集的数据存储到MySQL数据库中,包括MySQL的安装、基本命令操作以及如何使用Python的PyMySQL库进行数据交互。通过示例展示了创建数据库、数据表,以及INSERT、SELECT、UPDATE、DELETE等SQL语句的使用。
摘要由CSDN通过智能技术生成

上一篇文章我们讲解了爬虫如何存储 CSV 文件,这篇文章,我们讲解如何将采集到的数据保存到 MySQL 数据库中。

MySQL 是目前最受欢迎的开源关系型数据库管理系统。一个开源项目具有如此之竞争力实在是令人意外,它的流行程度正在不断地接近两外两个闭源的商业数据库系统:微软的 SQL Server 和甲骨文的 Oracle 数据库(MySQL 在2010年被甲骨文收购)。

它的流行程度名符其实。对于大多数应用来说,MySQL 都是不二选择。他是一种非常灵活、稳定、功能齐全的 DBMS,许多顶级的网站都在使用它:Youtube、Twitter 和 Facebook 等。

因为它受众广泛,免费,开箱即用,所以它是网络数据采集项目中常用的数据库,这篇文章我们介绍如何通过 MySQL 存储采集到的数据。

安装 MySQL

如果你第一次接触 MySQL,可能会觉得有点麻烦。其实,安装方法和安装其他软件一样简单。归根结底,MySQL 就是由一系列数据文件构成的,存储在你远端服务器或者本地电脑上,里面包含了数据库存储的所有信息。

Windows 安装 MySQL、Ubuntu 安装 MySQL、MAC 安装 MySQL 具体步骤在此:全平台安装 MySQL

在此不做过多说明,按照视频操作就可以了。

基本命令

MySQL 服务器启动之后,有很多种方法可以与数据库服务器交互。因为有很多工具是图形界面,所以你可以不用 MySQL 的命令行(或是很少用命令行)也能管理数据库。像 phpMyAdmin 和 MySQL Workbench 这类工具可以很容易地实现数据库查看、排序和新建等工作。但是,掌握命令行操作数据库还是很重要的。

除了用户自定义变量名,MySQL 是不区分大小写的。例如,SELECT 和 select 是一样的,不过习惯上写 MySQL 语句的时候所有的 MySQL 关键词都用大写。大多数开发者还喜欢用小写字母表示数据库和数据表的名称。

首先登入 MySQL 数据库的时候,里面是没有数据库存放数据的。我们需要创建一个数据库:

CREATE DATABASE scraping_article DEFAULT CHARACTER SET UTF8 COLLATE UTF8_GENERAL_CI;

因为每个 MySQL 实例可以有多个数据库,所以使用某个数据库之前需要指定数据库的名称:

USE scraping_article

从现在开始(直到关闭 MySQL 链接或切换到另一个数据库之前),所有的命令都运行在这个新的“scraping_article”数据库里面。

所有操作都看起来非常简单。那么在数据库里面新建表的操作方法也应该类似吧?我们在库里面新建一张表来存储采集的网页文章数据:

CREATE TABLE articles;

结果显示错误:

ERROR 1113 (42000): A table must have at least 1 column

和数据库不同,MySQL 数据表必须有一列,否则不能创建。为了在 MySQL 里定义字段(数据列),我们还必须在 CREATE TABLE 语句后面,把字段定义放进一个带括号的、内部由逗号分隔的列表中:

create table articles
(
    id                   int auto_increment
        primary key,
    title                varchar(64)                        null,
    body                 text                               null,
    summary              varchar(256)                       null,
    body_html            text                               null,
    create_time          datetime default CURRENT_TIMESTAMP null,
    time_updated         datetime                     
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值