数据持久化的三种方式

csv模块
  • 作用:将爬取的数据存放到本地的csv文件中
  • 使用流程
    • 打开csv文件
    • 初始化写入对象
    • 写入数据(参数为列表)
  • writerow([]):单行写入
  • writerows((),(),()]:多行写入,一次性写入多行数据
pymysql模块与mysql数据库交互流程
  • 创建数据库连接对象—》db = pymysql.connect(xx,xx,xx,xx)
  • 创建游标对象 —》cursor = db.cursor()
  • 执行sql命令 —》 cursor.execute(sql语句,[xx,xx])
  • 提交到数据库执行 ----》db.commit()
  • 关闭游标 —》cursor.close()
  • 断开数据库连接 ----》db.close()
pymysql之excutemany()方法
- 作用
	- 减少数据库io次数,提高效率,一次性插入多条数据
  • csv与mysql保存比较
  • csv和mysql
增量爬虫mysql
  • 定义:每次爬取只抓新更新的链接,之前抓取过的链接不会再继续抓取
  • 实现
    • mysql中新建指纹表,用来存储所有爬取过的链接的指纹
    • 在爬取任何链接之前,先判断该指纹是否存在于指纹表。如果已经存在则不再进行爬取
  • 准备1-给url地址进行md5加密生成指纹

    from hashlib import md5
    s = md5()
    s.update(url.encode())
    finger = s.hexdigest()

  • 准备2-pymysql模块如何获取执行查询语句后的结果

    import pymysql
    cursor.execute(‘select * from cartab’)

    fetchall()得到的结果为元组

    result = cursor.fetchall()
增量redis
  • 原理
    • redis基于内存,效率极高
    • 利用redis中集合的特性,自动去重,可以轻松管理所有请求的指纹
  • 实现思路
    • 利用集合的sadd()方法向集合中添加指纹,根据返回值来判断集合中是否存在该指纹
    • 添加成功返回1,表示此请求之前并未抓取过
    • 添加失败返回0,表示此请求之前已经抓取过
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python中有三种常见的数据持久化方式: 1. 文件存储: 可以使用 Python 的内置函数 `open()` 和 `write()` 将数据写入文件, 使用 `read()` 读取文件中的数据。这种方法适用于将数据保存在本地磁盘上, 但是如果数据量比较大, 读写效率可能会比较低。 2. 数据库存储: 可以使用 Python 的数据库模块, 如 `sqlite3` 或者 `MySQLdb` 操作数据库。这种方法适用于将数据保存在远程服务器上, 并且可以方便地进行数据的查询和修改。 3. 序列化: 可以使用 Python 的序列化模块, 如 `pickle` 或者 `json` 将数据转换成字符串形式并保存在文件中。这种方法适用于将数据保存在本地磁盘上, 并且可以方便地进行数据的读取和反序列化。 ### 回答2: Python数据持久化三种方式分别是使用pickle模块、使用json模块和使用数据库。 1. 使用pickle模块:pickle是Python标准库中的一个模块,可以将Python对象序列化为二进制数据并进行持久化。通过pickle模块,可以将Python对象存储到磁盘上,然后在需要的时候将其从磁盘上读取出来。这种方式适用于需要保持数据结构完整性并能够快速存储和读取的场景。 2. 使用json模块:json是一种轻量级的数据交换格式,在Python中可以使用json模块将Python对象序列化为json格式的字符串,并进行保存。与pickle不同,json可以与其他编程语言进行数据交换。这种方式适用于需要跨平台、跨语言进行数据存储和传递的场景。 3. 使用数据库:Python可以通过使用数据库进行数据持久化。Python提供了许多数据库驱动程序,如MySQL、SQLite、PostgreSQL等,开发者可以选择适合自己需求的数据库进行数据的存储和读取。通过使用数据库,可以实现数据的高效、灵活、安全的存储和查询。这种方式适用于大量数据的处理和复杂数据关系的存储和管理。 综上所述,Python数据持久化三种方式分别是使用pickle模块、使用json模块和使用数据库。具体选取哪种方式取决于业务需求和数据特点。 ### 回答3: Python数据持久化可以通过以下三种方式实现: 1. 使用文件存储:这是一种常见的数据持久化方法。Python提供了多种操作文件的方法,可以方便地将数据存储在文件中,并在需要时读取出来。可以使用文件的读写操作来实现数据的保存和读取,例如使用`open`函数打开文件,使用`write`方法将数据写入文件,使用`read`方法读取文件中的数据。 2. 使用数据库存储:Python也支持通过数据库实现数据持久化。通过使用数据库模块(如MySQLdb、psycopg2等),可以连接到数据库,创建表格,并把数据存储到表格中。这种方式可以通过SQL语句进行数据的增删改查操作,并提供了更方便的数据管理功能,如索引、事务处理等。 3. 使用缓存存储:缓存是一种将数据暂时存储在内存中的方式,可以减少对磁盘IO的操作。Python中有多种缓存库可供选择,例如Redis、Memcached等。使用缓存存储可以提高数据访问的速度,适用于需要频繁读写的场景。数据可以以键值对的形式存储在缓存中,通过键来获取数据。 这三种方式在不同的场景下有不同的应用,可以根据具体的需求选择合适的方法进行数据持久化处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值