爬虫大家都很熟悉了,那你知道它采集下来的数据除了存储在文本文件、excel之外,还可以存储在数据集吗?像Mysql,redis,mongodb等都是他经常存储的数据集,今天就来给大家分享一下如何使用Python连接Mysql,并结合爬虫为大家讲解。不知道的可以仔细看看了,知道的可以复习巩固一下哦~
前提:这里默认大家已经安装好mysql。
01 Mysql简介
mysql是关系型数据库,支持大型的数据库,可以处理拥有上千万条记录的大型数据库。通过爬虫采集的数据集存储到mysql后,可以借助mysql的关联查询将相关的数据一步取出。具体的作用这里就不赘述了,下面开始进入实际操作。
1.安装pymysql
通过下面这个命令进行安装
pip install pymysql
pymysql库:Python3链接mysql
备注:
ps:MYSQLdb只适用于python2.x
python3不支持MYSQLdb,取而代之的是pymysql
运行会报:ImportError:No module named ‘MYSQLdb’
2.python连接mysql
import pymysql as pmq
#connect(ip.user,password,dbname)
con = pmq.connect('localhost','root','123456','python_chenge')
#操作游标
cur = con.cursor()
localhost是本机ip,这里用localhost表示是当前本机,否则将localhost改为对应的数据库ip。
root是数据库用户名,123456是数据库密码,python_chenge是数据库名。
图上的数据库python_chenge已经建立好(建好之后,才能用上面代码去连接),建好之后,当前是没有表的,现在开始用Python进行建表,插入、查询,修改,删除等操作(结合爬虫去讲解)
02 建表
在存储之前,先通过python创建表,字段有四个(一个主键+电影名称,链接,评分)
# 创建 movie 表
movie_sql= '''
create table movie(
id int AUTO_INCREMENT primary key not null,
title varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci not null,
url varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci not null,
rate float not null
)
'''
# 执行sql语句
cur.execute