1. mysql库环境准备
a.服务器,准备一台linux服务器,可以自己机器上装个虚拟化软件,也可以连公司的闲置服务器或者租赁云服务器,不贵的。
b.mysql,安装的5.7,官网应该有8了,但5.7还是最普遍的版本。
c.Navicat for Mysql,非常好用的mysql客户端工具。
安装过程省略,安装完成后新建一个库,起名spider,然后在新建一个表,起名book,准备接收数据用。建表脚本:
CREATE TABLE book(
id INT PRIMARY KEY AUTO_INCREMENT COMMENT 'ID',
code int COMMENT '编号',
name VARCHAR(200) COMMENT '名称',
price double COMMENT '价格'
)
COMMENT='图书信息表'
建表成功,这个就是我们本次要写入数据的目标表。
2.爬取数据存储至item
首先修改items.py ,新增图书的Item
class BookItem(scrapy.Item):
code = scrapy.Field() # 编码
name = scrapy.Field() # 名称
price = scrapy.Field() # 价格
然后写用genspider命令,生成一个名为BookSpider的爬出,引入BookItem,并赋予数据。
因为本次重点不是爬取数据,所以图书数据直接枚举一下,代码如下: