在本文中以爬取某网中每个房型房源信息,并且按照房源用途分别保存到不同表中为例。
首先导入爬虫需要的selenuim模块、休眠要用的time模块、连接数据库要用的pymysql模块,并且连接数据库。
host=你本机的ip地址,localhost就是本机的ip地址
user=连接MySQL的用户名
password=连接MySQL的密码
db=操作的数据库名称
cursor为一个对象,如果需要对我们定义的数据库进行操作,直接就对cursor操作即可。
如果想要把爬取下来的数据保存到数据库表中,就必须要先创建表结构,比如在下方最后三行代码中,创建了三张表用于后续保存爬取下来的数据
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from selenium import webdriver
from time import sleep
import pymysql
# 连接数据库
conn = pymysql.connect(host='localhost',user='root',password='123456',db='db')
cursor = conn.cursor()
#执行一个SQL语句
cursor.execute('create table if not exists bk_zz(name varchar(255),sale varchar(255),type varchar(255),local varchar(255),local1 varchar(255),huxing varchar(255),jianmian varchar(255),small_price varchar(255),big_price varchar(255),subway varchar(255),shopping varchar(255))')
cursor.execute('create table if not exists bk_bs(name varchar(255),sale varchar(255),type varchar(255),local varchar(255),local1 varchar(255),huxing varchar(255),jianmian varchar(255),small_price varchar(255),big_price varchar(255),subway varchar(255),shopping varchar(255))')
cursor.execute('create table if not exists bk_qt(name varchar(255),sale varchar(255),type varchar(255)