1. 爬虫-学习
- 入门
- 网页基础
- HTTP基本原理
- Chrome辅助工具-JSONView
- Chrome辅助工具-POSTMAN
- 文件存储
- 文件命名
- 使用urllib(request)
- 使用urllib(error)
- 使用requests
- 正则表达式-常用规则
- 正则表达式-贪婪模式和非贪婪模式
- 正则表达式-替换模式sub
- 正则表达式-模块compile和match
- DOM操作器XPATH
- Beautiful Soup (1)
- Beautiful Soup (2)
- Beautiful Soup (3)
- selenium 详解
- 修改User-Agent
- 延迟提交数据
- 使用代理(urllib模块)
- 使用代理(requests模块)
- Robots协议(分析网站结构)
- Sitemap(分析网站结构)
- (找不到Sitemap)网站结构分析
- 定制抓取
- MySQLConnection
- MySQLCursor
2. 爬虫-实战
- 小实例
- 下载一只猫
- 翻译文本
- 爬取当当网 Top 500 本五星好评书籍
- 爬取豆瓣电影 Top250 电影并存储到 Excel 表中
- 爬取 B站 “蔡徐坤 篮球”
- 案例:BBS网站介绍
- 案例:单一版面列表抓取
- 案例:所有版面列表抓取
- 案例:主题列表分析
- 案例:主题列表分页抓取
- 案例:主题列表内容抓取
- 案例:主题内容详情抓取
- 案例:控制抓取节奏
- 案例:为BBS网站创建表前奏(有点问题)