Scrapy 搜狗词库爬虫

本文介绍了使用Scrapy爬取搜狗词库时遇到的一级分类图片文字、数据库字段长度限制和文件下载等问题。通过分析和解决,成功实现了词库的爬取并记录了关键步骤。最后,分享了项目的GitHub链接。
摘要由CSDN通过智能技术生成

引言

最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列
https://github.com/Ehco1996/Python-crawler
博主写的对新手很友好,很适合入门。

我写这篇文章的目的是记录一下在学习他的
搜狗词库抓取&解析 中遇到的问题。

思路

和原文不同的是,我是采用Scrapy实现,并且考虑到后面对词库关键词的解析不属于爬虫,所有我就只实现了搜狗词库爬取,没有做解析。另外原文中cate表只是作为中转,我就没有存储,所以我只建了一个表detail。

  1. 建表detail,字段url、filename、cate1、cate2、create_time
  2. 从初始url中解析全部一级分类url,再从一级分类url中解析二级分类url
  3. 从二级分类url中解析出每一个二级分类的页数,将二级分类url和每一个二级分类的页数拼接成新的url,再从新的url中解析出下载地址和标题
  4. 将下载地址、标题、一级分类和二级分类一并存入detail表
  5. 从detail表中取出所有下载地址,下载文件到本地

问题

1. 一级分类标题文字为图片形式,获取不到

分析搜狗词库发现,它的一级分类

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值