数据持久化的三种方式

最新推荐文章于 2024-05-03 13:20:47 发布

梦中学逆向

最新推荐文章于 2024-05-03 13:20:47 发布

阅读量1.4k

点赞数 1

分类专栏：爬虫文章标签：数据持久化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44190738/article/details/115704219

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

csv模块

作用：将爬取的数据存放到本地的csv文件中
使用流程
- 打开csv文件
- 初始化写入对象
- 写入数据（参数为列表）
writerow([])：单行写入
writerows((),(),()]:多行写入，一次性写入多行数据

pymysql模块与mysql数据库交互流程

创建数据库连接对象—》db = pymysql.connect(xx,xx,xx,xx)
创建游标对象 —》cursor = db.cursor()
执行sql命令 —》 cursor.execute(sql语句，[xx,xx])
提交到数据库执行 ----》db.commit()
关闭游标 —》cursor.close()
断开数据库连接 ----》db.close()

pymysql之excutemany()方法

- 作用
	- 减少数据库io次数，提高效率，一次性插入多条数据

csv与mysql保存比较

增量爬虫mysql

定义：每次爬取只抓新更新的链接，之前抓取过的链接不会再继续抓取
实现
- mysql中新建指纹表，用来存储所有爬取过的链接的指纹
- 在爬取任何链接之前，先判断该指纹是否存在于指纹表。如果已经存在则不再进行爬取
准备1-给url地址进行md5加密生成指纹

from hashlib import md5
s = md5()
s.update(url.encode())
finger = s.hexdigest()
准备2-pymysql模块如何获取执行查询语句后的结果

import pymysql
cursor.execute(‘select * from cartab’)

fetchall()得到的结果为元组
result = cursor.fetchall()

增量redis

原理
- redis基于内存，效率极高
- 利用redis中集合的特性，自动去重，可以轻松管理所有请求的指纹
实现思路
- 利用集合的sadd()方法向集合中添加指纹，根据返回值来判断集合中是否存在该指纹
- 添加成功返回1，表示此请求之前并未抓取过
- 添加失败返回0，表示此请求之前已经抓取过

梦中学逆向

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据持久化的三种方式

csv模块作用：将爬取的数据存放到本地的csv文件中使用流程打开csv文件初始化写入对象写入数据（参数为列表）writerow([])：单行写入writerows((),(),()]:多行写入，一次性写入多行数据pymysql模块与mysql数据库交互流程创建数据库连接对象—》db = pymysql.connect(xx,xx,xx,xx)创建游标对象 —》cursor = db.cursor()执行sql命令 —》 cursor.execute(sql语句，[xx,xx
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。