python简单爬虫：爬取并统计自己博客页面的信息（四）

最新推荐文章于 2024-03-20 14:36:42 发布

Yvettre

最新推荐文章于 2024-03-20 14:36:42 发布

阅读量1k

点赞数 2

分类专栏： python 文章标签：爬虫 python mysql crontab 爬取博客信息

本文链接：https://blog.csdn.net/Yvettre/article/details/79972620

版权

本文介绍了一个使用Python编写的简单爬虫，它爬取并统计个人博客信息。涉及内容包括数据库模块（MySQL）、结果输出模块（CSV及MySQL存储）、crontab定时任务设置，以及展示的最终结果。代码已上传至GitHub。

摘要由CSDN通过智能技术生成

python简单爬虫：爬取并统计自己博客页面的信息（三）中介绍了html解析器的简单实现，接下来介绍mysql模块、结果输出模块，最后展示一下结果。

10. 数据库模块：mysql.py

因为结果输出模块中使用到了mysql，因此在讲结果输出模块之前，先讲mysql模块。

mysql是一个关系型数据库管理系统（DBMS），而数据库则是通过DBMS创建和操纵的容器。
一个DBMS中可以有很多个数据库，每一个数据库中可以有很多表（tables）。表是一种结构化的文件，用来存储某种特定类型数据的结构化清单。简单理解，一个表可以看作是大家熟悉的excel文件中的一个sheet。
为了方便，我在本地的mysql中手动创建了一个数据库，并在数据库中创建了一个用来存储我的csdn博客数据的表格（只有表头）

# 使用root用户登录数据库管理系统
:~$ mysql -uroot -plinux123
mysql> create database yvettre;     # 创建名为yvettre的数据库
mysql> use yvettre;                 # 使用yvettre数据库
mysql> create table if not exists csdn (datetime DATETIME, origin int, fans int, likey int, comment int, views int, score int, rank int, level int);                      # 创建名为csdn的表格