数据之路 - Python爬虫 - 数据存储-CSDN博客

一、文件存储

1.文件打开方式

文件打开方式	说明
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式
rb	以二进制只读方式打开一个文件。文件指针将会放在文件的开头
r+	以读写方式打开一个文件。文件指针将会放在文件的开头
rb+	以二进制读写方式打开一个文件。文件指针将会放在文件的开头
w	以写入方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
wb	以二进制写入方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
w+	以读写方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
wb+	以二进制读写格式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
a	以追加方式打开一个文件。如果该文件已存在，文件指针将会放在文件结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，则创建新文件来写入
ab	以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，则创建新文件来写入
a+	以读写方式打开一个文件。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，则创建新文件来读写
ab+	以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾。如果该文件不存在，则创建新文件用于读写

2.txt文本存储

with open('explore.txt', 'a', encoding='utf-8') as file:
    file.write('\n'.join([question, author, answer]))
    file.write('\n' + '=' * 50 + '\n')

3.json文件存储

调用库的loads()方法将JSON文本字符串转为JSON对象，可以通过dumps()方法将JSON对象转为文本字符串

- 读取json

import json
 
str = '''
[{
    "name": "Bob",
    "gender": "male",
    "birthday": "1992-10-18"
}, {
    "name": "Selina",
    "gender": "female",
    "birthday": "1995-10-18"
}]
'''
print(type(str))
data = json.loads(str)
print(data)
print(type(data))

- 输出json

import json
 
data = [{
    'name': 'Bob',
    'gender': 'male',
    'birthday': '1992-10-18'
}]
with open('data.json', 'w') as file:
    file.write(json.dumps(data))

4.csv文件存储

- 写入

首先，打开data.csv文件，然后指定打开的模式为w（即写入），获得文件句柄，随后调用csv库的writer()方法初始化写入对象，传入该句柄，然后调用writerow()方法传入每行的数据即可完成写入。writerows()方法同时写入多行

import csv
 
with open('data.csv', 'w') as csvfile:
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])

- 读取

import csv
 
with open('data.csv', 'r', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

二、MySQL关系型数据库存储

1.MySQL连接

import pymysql
# connect()方法声明一个MySQL连接对象
db = pymysql.connect(host='localhost',user='root', password='123456', port=3306)
# cursor()方法获得MySQL的操作游标，利用游标来执行SQL语句
cursor = db.cursor()
# 创建students数据表
sql = 'CREATE TABLE IF NOT EXISTS students (id VARCHAR(255) NOT NULL, name VARCHAR(255) NOT NULL, age INT NOT NULL, PRIMARY KEY (id))'
cursor.execute(sql)

2.插入

import pymysql
 
id = '20120001'
user = 'Bob'
age = 20
 
db = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='spiders')
cursor = db.cursor()
sql = 'INSERT INTO students(id, name, age) values(%s, %s, %s)'
try:
    cursor.execute(sql, (id, user, age))
    db.commit()
except:
    db.rollback()
db.close()
==================================================================================================
data = {
    'id': '20120001',
    'name': 'Bob',
    'age': 20
}
table = 'students'
keys = ', '.join(data.keys())
values = ', '.join(['%s'] * len(data))
sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=table, keys=keys, values=values)
try:
   if cursor.execute(sql, tuple(data.values())):
       print('Successful')
       db.commit()
except:
    print('Failed')
    db.rollback()
db.close()

3.更新

sql = 'UPDATE students SET age = %s WHERE name = %s'
try:
   cursor.execute(sql, (25, 'Bob'))
   db.commit()
except:
   db.rollback()
db.close()
===========================================================================================================================
data = {
    'id': '20120001',
    'name': 'Bob',
    'age': 21
}
 
table = 'students'
keys = ', '.join(data.keys())
values = ', '.join(['%s'] * len(data))
 
sql = 'INSERT INTO {table}({keys}) VALUES ({values}) ON DUPLICATE KEY UPDATE'.format(table=table, keys=keys, values=values)
update = ','.join([" {key} = %s".format(key=key) for key in data])
sql += update
try:
    if cursor.execute(sql, tuple(data.values())*2):
        print('Successful')
        db.commit()
except:
    print('Failed')
    db.rollback()
db.close()

4.删除

table = 'students'
condition = 'age > 20'
 
sql = 'DELETE FROM  {table} WHERE {condition}'.format(table=table, condition=condition)
try:
    cursor.execute(sql)
    db.commit()
except:
    db.rollback()
 
db.close()

5.查询

sql = 'SELECT * FROM students WHERE age >= 20'
 
try:
    cursor.execute(sql)
    print('Count:', cursor.rowcount)
    one = cursor.fetchone()
    print('One:', one)
    results = cursor.fetchall()
    print('Results:', results)
    print('Results Type:', type(results))
    for row in results:
        print(row)
except:
    print('Error')

三、MongoDB非关系型数据库存储

1.MongoDB连接

import pymongo
# 连接MongoDB
client = pymongo.MongoClient(host='localhost', port=27017)
# 指定数据库
db = client.test
# 指定集合(类似于数据表)
collection = db.students

2.插入

student = {
    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}

student1 = {
    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}
 
student2 = {
    'id': '20170202',
    'name': 'Mike',
    'age': 21,
    'gender': 'male'
}

result = collection.insert(student)
result = collection.insert([student1, student2])
result = collection.insert_many([student1, student2])
print(result)

3.查询

# find_one()查询得到的是单个结果，find()则返回一个生成器对象。
result = collection.find_one({'name': 'Mike'})
result = collection.find_all({'name': 'Mike'})

- 常用符号

符号类型	符号	含义	示例
比较符号	$lt	小于	{'age': {'$lt': 20}}
	$gt	大于	{'age': {'$gt': 20}}
	$lte	小于等于	{'age': {'$lte': 20}}
	$gte	大于等于	{'age': {'$gte': 20}}
	$ne	不等于	{'age': {'$ne': 20}}
	$in	在范围内	{'age': {'$in': [20, 23]}}
	$nin	不在范围内	{'age': {'$nin': [20, 23]}}
功能符号	$regex	匹配正则表达式，name以M开头	{'name': {'$regex': '^M.*'}}
	$exists	属性是否存在，name属性存在	{'name': {'$exists': True}}
	$type	类型判断，age的类型为int	{'age': {'$type': 'int'}}
	$mod	数字模操作，年龄模5余0	{'age': {'$mod': [5, 0]}}
	$text	文本查询，text类型的属性中包含Mike字符串	{'$text': {'$search': 'Mike'}}
	$where	高级条件查询，自身粉丝数等于关注数	{'$where': 'obj.fans_count == obj.follows_count'}

4.更新

condition = {'name': 'Kevin'}
student = collection.find_one(condition)
student['age'] = 25
result = collection.update(condition, student)
print(result)

# update_many()方法，则会将所有符合条件的数据都更新
# update_one()方法，则会将单个符合条件的数据都更新

5.删除

# remove()将符合条件的所有数据删除
result = collection.remove({'name': 'Kevin'})
print(result)
# delete_one()删除第一条符合条件的数据
result = collection.delete_one({'name': 'Kevin'})
print(result)
print(result.deleted_count)
# delete_many()即删除所有符合条件的数据
result = collection.delete_many({'age': {'$lt': 25}})
print(result.deleted_count)
# deleted_count属性获取删除的数据条数

四、Redis非关系型数据库存储

1.Redis连接

from redis import StrictRedis
 
redis = StrictRedis(host='localhost', port=6379, db=0, password='foobared')
redis.set('name', 'Bob')    
print(redis.get('name'))

2.键操作

方法	作用	参数说明
exists(name)	判断一个键是否存在	`name`：键名
delete(name)	删除一个键	`name`：键名
type(name)	判断键类型	`name`：键名
keys(pattern)	获取所有符合规则的键	`pattern`：匹配规则
randomkey()	获取随机的一个键
rename(src, dst)	重命名键	`src`：原键名；`dst`：新键名
dbsize()	获取当前数据库中键的数目
expire(name, time)	设定键的过期时间，单位为秒	`name`：键名；`time`：秒数
ttl(name)	获取键的过期时间，单位为秒，-1表示永久不过期	`name`：键名
move(name, db)	将键移动到其他数据库	`name`：键名；`db`：数据库代号
flushdb()	删除当前选择数据库中的所有键
flushall()	删除所有数据库中的所有键

3.字符串操作

方法	作用	参数说明
set(name, value)	给数据库中键为`name`的`string`赋予值`value`	`name`: 键名；`value`: 值
get(name)	返回数据库中键为`name`的`string`的`value`	`name`：键名
getset(name, value)	给数据库中键为`name`的`string`赋予值`value`并返回上次的`value`	`name`：键名；`value`：新值
mget(keys, *args)	返回多个键对应的`value`	`keys`：键的列表
setnx(name, value)	如果不存在这个键值对，则更新`value`，否则不变	`name`：键名
setex(name, time, value)	设置可以对应的值为`string`类型的`value`，并指定此键值对应的有效期	`name`: 键名；`time`: 有效期； `value`：值
setrange(name, offset, value)	设置指定键的`value`值的子字符串	`name`：键名；`offset`：偏移量；`value`：值
mset(mapping)	批量赋值	`mapping`：字典
msetnx(mapping)	键均不存在时才批量赋值	`mapping`：字典
incr(name, amount=1)	键为`name`的`value`增值操作，默认为1，键不存在则被创建并设为`amount`	`name`：键名；`amount`：增长的值
decr(name, amount=1)	键为`name`的`value`减值操作，默认为1，键不存在则被创建并将`value`设置为`-amount`	`name`：键名； `amount`：减少的值
append(key, value)	键为`name`的`string`的值附加`value`	`key`：键名
substr(name, start, end=-1)	返回键为`name`的`string`的子串	`name`：键名；`start`：起始索引；`end`：终止索引，默认为-1，表示截取到末尾
getrange(key, start, end)	获取键的`value`值从`start`到`end`的子字符串	`key`：键名；`start`：起始索引；`end`：终止索引

4.列表操作

方法	作用	参数说明
rpush(name, *values)	在键为`name`的列表末尾添加值为`value`的元素，可以传多个	`name`：键名；`values`：值
lpush(name, *values)	在键为`name`的列表头添加值为`value`的元素，可以传多个	`name`：键名；`values`：值
llen(name)	返回键为`name`的列表的长度	`name`：键名
lrange(name, start, end)	返回键为`name`的列表中`start`至`end`之间的元素	`name`：键名；`start`：起始索引；`end`：终止索引
ltrim(name, start, end)	截取键为`name`的列表，保留索引为`start`到`end`的内容	`name`：键名；`start`：起始索引；`end`：终止索引
lindex(name, index)	返回键为`name`的列表中`index`位置的元素	`name`：键名；`index`：索引
lset(name, index, value)	给键为`name`的列表中`index`位置的元素赋值，越界则报错	`name`：键名；`index`：索引位置；`value`：值
lrem(name, count, value)	删除`count`个键的列表中值为`value`的元素	`name`：键名；`count`：删除个数；`value`：值
lpop(name)	返回并删除键为`name`的列表中的首元素	`name`：键名
rpop(name)	返回并删除键为`name`的列表中的尾元素	`name`：键名
blpop(keys, timeout=0)	返回并删除名称在`keys`中的`list`中的首个元素，如果列表为空，则会一直阻塞等待	`keys`：键列表；`timeout`：超时等待时间，0为一直等待
brpop(keys, timeout=0)	返回并删除键为`name`的列表中的尾元素，如果`list`为空，则会一直阻塞等待	`keys`：键列表；`timeout`：超时等待时间，0为一直等待
rpoplpush(src, dst)	返回并删除名称为`src`的列表的尾元素，并将该元素添加到名称为`dst`的列表头部	`src`：源列表的键；`dst`：目标列表的key

5.集合操作

方法	作用	参数说明
sadd(name, *values)	向键为name的集合中添加元素	name：键名；values：值，可为多个
srem(name, *values)	从键为name的集合中删除元素	name：键名；values：值，可为多个
spop(name)	随机返回并删除键为name的集合中的一个元素	name：键名
smove(src, dst, value)	从src对应的集合中移除元素并将其添加到dst对应的集合中	src：源集合；dst：目标集合；value：元素值
scard(name)	返回键为name的集合的元素个数	name：键名
sismember(name, value)	测试member是否是键为name的集合的元素	name：键值
sinter(keys, *args)	返回所有给定键的集合的交集	keys：键列表
sinterstore(dest, keys, *args)	求交集并将交集保存到dest的集合	dest：结果集合；keys：键列表
sunion(keys, *args)	返回所有给定键的集合的并集	keys：键列表
sunionstore(dest, keys, *args)	求并集并将并集保存到dest的集合	dest：结果集合；keys：键列表
sdiff(keys, *args)	返回所有给定键的集合的差集	keys：键列表
sdiffstore(dest, keys, *args)	求差集并将差集保存到dest集合	dest：结果集合；keys：键列表
smembers(name)	返回键为name的集合的所有元素	name：键名
srandmember(name)	随机返回键为name的集合中的一个元素，但不删除元素	name：键值

6.有序集合操作

方法	作用	参数说明
zadd(name, args, *kwargs)	向键为name的zset中添加元素member，score用于排序。如果该元素存在，则更新其顺序	name：键名；args：可变参数
zrem(name, *values)	删除键为name的zset中的元素	name：键名；values：元素
zincrby(name, value, amount=1)	如果在键为name的zset中已经存在元素value，则将该元素的score增加amount；否则向该集合中添加该元素，其score的值为amount	name：key名；value：元素；amount：增长的score值
zrank(name, value)	返回键为name的zset中元素的排名，按score从小到大排序，即名次	name：键名；value：元素值
zrevrank(name, value)	返回键为name的zset中元素的倒数排名（按score从大到小排序），即名次	name：键名；value：元素值
zrevrange(name, start, end, withscores=False)	返回键为name的zset（按score从大到小排序）中index从start到end的所有元素	name：键值；start：开始索引；end：结束索引；withscores：是否带score
zrangebyscore(name, min, max, start=None, num=None, withscores=False)	返回键为name的zset中score在给定区间的元素	name：键名；min：最低score；max：最高score；start：起始索引；num：个数；withscores：是否带score
zcount(name, min, max)	返回键为name的zset中score在给定区间的数量	name：键名；min：最低score；max：最高score
zcard(name)	返回键为name的zset的元素个数	name：键名
zremrangebyrank(name, min, max)	删除键为name的zset中排名在给定区间的元素	name：键名；min：最低位次；max：最高位次
zremrangebyscore(name, min, max)	删除键为name的zset中score在给定区间的元素	name：键名；min：最低score；max：最高score

7.散列操作

方法	作用	参数说明
hset(name, key, value)	向键为name的散列表中添加映射	name：键名；key：映射键名；value：映射键值
hsetnx(name, key, value)	如果映射键名不存在，则向键为name的散列表中添加映射	name：键名；key：映射键名；value：映射键值
hget(name, key)	返回键为name的散列表中key对应的值	name：键名；key：映射键名
hmget(name, keys, *args)	返回键为name的散列表中各个键对应的值	name：键名；keys：映射键名列表
hmset(name, mapping)	向键为name的散列表中批量添加映射	name：键名；mapping：映射字典
hincrby(name, key, amount=1)	将键为name的散列表中映射的值增加amount	name：键名；key：映射键名；amount：增长量
hexists(name, key)	键为name的散列表中是否存在键名为键的映射	name：键名；key：映射键名
hdel(name, *keys)	在键为name的散列表中，删除键名为键的映射	name：键名；keys：映射键名
hlen(name)	从键为name的散列表中获取映射个数	name：键名
hkeys(name)	从键为name的散列表中获取所有映射键名	name：键名
hvals(name)	从键为name的散列表中获取所有映射键值	name：键名
hgetall(name)	从键为name的散列表中获取所有映射键值对	name：键名