本系列博客将分为以下几篇:
- 001、python爬取主页,获取最新文章列表
- 010、python爬取文章列表,归档为本地文件
- 011、python实现数据清洗,过滤出每篇文章中有一定难度的单词
- 100、python分别从有道、必应爬取每篇文章中一定难度单词的发音、解释、短语、例句等信息,首选有道,有道失败必应上,实在不行调用扇贝查词API
- 101、根据文章,以及爬取的对应单词解析文件,生成最终可供请求的json文件
- 110、前端逻辑简单梳理
先上一下最新的视觉:
带有info标记的单词就是过滤出的有难度的单词,点击即可查看翻译、发音、例句、短语等。
00、python爬取主页,获取最新文章列表
1、分析要爬取的网页结构,注意不要在浏览器中直接访问,因为直接访问的文档结构可能是被javascript经过DOM操作改变过的,要将爬取的内容保存为html文件然后在浏览器中打开进行分析
i