如何用1g内存服务器去爬取一个大型网站的嵌套数据(一步步解决out of memery)
题主最近想自己爬取某网站的全网数据,本以为很简单!数据库选择了mysql,语言选择了python此网站结构如下;第一层:主列表分为中国籍、美籍、日本等等 每页30条第二层:A-Z 字母代表每个人的姓氏开头的人的列表 每个栏目下乐有300页 每页200条 这边爬取数据较大,每个A-Z都生成了单独的表第三层:为每个人下属的作品列表 这个约10页 每页30条第四层:为每个作品的详情 题主开始:首先每一层...
原创
2018-02-13 00:16:14 ·
545 阅读 ·
0 评论