Scrapy学习路线

一、编写Spider

1.1 Scrapy框架结构和工作原理

1.2 Request和Response对象

1.3 Spider开发流程

1.4 编写第一个Scrapy爬虫


二、Selector提取数据

2.1 Selector对象

2.2 Response内置Selector

2.3 Xpath

2.4 CSS选择器

  

三、Item封装数据

3.1 Item和Field

3.2 拓展Item子类

3.3 Field元数据

  

四、Item Pipeline处理数据

  

五、 LinkExtractor提取链接

  

六、Exporter导出数据

  

七、项目练习

  

八、下载文件和图片

  

九、模拟登陆

  

十、爬取动态页面

  

十一、数据保存

11.1 SQLite

11.2 MySQL

11.3 MongoDB

11.4 Redis

11.5 Excel

  

十二、HTTP代理

12.1 HttpProxyMiddleware

12.2 使用多个代理

12.3 获取免费代理

12.4 实现随机代理

12.5 使用第三方代理(以阿布云为例)

12.6 自己构建代理池

  

十三、分布式爬取

13.1 Redis的使用

13.2 scrapy-redis源码分析

13.3 使用scrapy进行分布式爬取

13.4 使用scrapyd部署scrapy

  

十四、 其他(后续补充)

常见加密算法,

python3执行javaScript脚本之pyexecjs, js2py

selenium介绍

phantomjs介绍

appium介绍

mitmproxy介绍

字符验证码破解

滑动验证码破解

点触验证码破解

等待补充

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值