scrapy
EuclideanSpace
这个作者很懒,什么都没留下…
展开
-
几百万爬虫踩坑
1. 如果持久化的数据库用的是mysql,注意连接的时候字符串用 utf8mb4, 不然有些字符串插不进去 pymysql.connect(host="127.0.0.1", user="root", password="123456", database="houseUpdate", charset="utf8mb4") 2. 尽量用 mongodb,因为你不知道你采集的字符串能有多长,所以设计mysql的时候会出现采集数据过长插不进去的情况 ...原创 2021-03-23 10:11:03 · 79 阅读 · 1 评论 -
scrapy 所用的数据库插入速度对比
问题: 前段时间用了scrapy + mysql,mysql 是开始是装在固态硬盘上的,所以采集的速度很快,之后换了电脑,把 mysql 装在机械硬盘上,导致爬取速度下降的太明显了,但是硬盘写入时就满载的,机械硬盘就导致了写入瓶颈,所以就做了做一个数据库插入速度对比。 爬取(不是导入哦)数据量:4000 行 1. mysql 在机械硬盘的 mysql 插入:7-8分钟左右 在固态硬盘的 mysql 插入:40-50秒左右 2. mongodb 在机械硬盘的 mongodb 插...原创 2021-02-03 15:15:15 · 227 阅读 · 0 评论