引言
最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列
https://github.com/Ehco1996/Python-crawler
博主写的对新手很友好,很适合入门。
我写这篇文章的目的是记录一下在学习他的
搜狗词库抓取&解析 中遇到的问题。
思路
和原文不同的是,我是采用Scrapy实现,并且考虑到后面对词库关键词的解析不属于爬虫,所有我就只实现了搜狗词库爬取,没有做解析。另外原文中cate表只是作为中转,我就没有存储,所以我只建了一个表detail。
- 建表detail,字段url、filename、cate1、cate2、create_time
- 从初始url中解析全部一级分类url,再从一级分类url中解析二级分类url
- 从二级分类url中解析出每一个二级分类的页数,将二级分类url和每一个二级分类的页数拼接成新的url,再从新的url中解析出下载地址和标题
- 将下载地址、标题、一级分类和二级分类一并存入detail表
- 从detail表中取出所有下载地址,下载文件到本地
问题
1. 一级分类标题文字为图片形式,获取不到
分析搜狗词库发现,它的一级分类