scrapy数据存入mysql_Scrapy爬虫实例教程(二)---数据存入MySQL

本文详细介绍了如何使用Scrapy爬虫抓取左岸读书网站的文章,并将数据存储到本地MySQL数据库中。教程涵盖了创建Scrapy项目、解析文章结构、建立MySQL数据库、定义items和pipelines、设置pipeline、解析网页内容以及运行爬虫的全过程。
摘要由CSDN通过智能技术生成

本文将详细描述使用scrapy爬去左岸读书所有文章并存入本地MySql数据库中,文中所有操作都是建立在scrapy已经配置完毕,并且系统中已经安装了Mysql数据库(有权限操作数据库)。

为了避免读者混淆,这里也使用tutorial作为scrapy project名称(工程的名字可以有读者自己定制)。

1. 建立tutorial工程

1 scrapy startproject tutorial

上述命令运行完毕后会得到tutorial(或者自定义名称)的目录,使用tree命令可以查看tutorial的目录结构,如下图所示

1ee53f67636322ba98c85bb7d1e2b825.png

2. 解析左岸文章结构

左岸读书为读者提供了一些优美文章,喜欢的读者可以自行订阅(在这里提博主打广告啦[不用谢^_^])

站中所有文章都以列表的形式列出,每篇文章链接都给出了文章摘要和相应的信息(如作者,发布时间,分类信息,阅读量等信息)在列表底端给出了下一个列表的链接,具体如下图所示

a7d19f41429957e34104f36ee99d795b.png

点击相应的文章题目可以链接到具体的文章内容页面,读者可以自己实验试下,这里不再赘述。

3. 建立mysql数据库

建立mysql数据库 crawed

1 create databasecrawed;2 use crawed;

在数据库中建立zreading数据表,这里我们要抓取文章标题,作者,文章发表日期,文章类别,文章标签,阅读量及文章内容,建立如下数据表

1 CREATE TABLE`zreading` (2 `title` varchar(100) NOT NULL,3 `author` varchar(50) NOT NULL,4 `pub_date` varchar(30) DEFAULT NULL,5 `types` varchar(50) DEFAULT NULL,6 `tags` varchar(50) DEFAULT NULL,7 `view_counts` varchar(20) DEFAULT '0',8 `content` text

9 ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

4. 在items.py中编写需要抓取的内容

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值