Scrapy爬虫系列笔记之一:总纲_by_书訢

这段时间因为项目需要一直在学习爬虫,担心像以前一样很多时候学习了新技术很久以后不用就忘掉很多。于是写下笔记,一方面帮助自己总结知识,以后回顾更快。另一方面帮助和我一样初次接触爬虫的人快速入门。以下是笔记大纲

1.环境配置和基础知识铺垫

1.1正则表达式
1.2深度优先和广度优先算法
1.3url去重策略

2.爬取数据实战

2.1实战准备工作
2.2静态网站爬取
2.3数据存储
2.4ItemLoader减小代码维护难度
2.5动态网站爬取之Selenium

3.scrapy反爬虫技术

3.1User-agent
3.2ip代理
3.2注册账号,每次请求带cookie
3.4模仿人限制速度
3.5验证码识别
3.6selenium进行动态网站数据爬取

4.scrapy redis 分布式爬虫

理解scrapy-redis分布式爬虫
集成bloomfilter到scrapy-redis中


笔记一到十链接
http://blog.csdn.net/sx_csu2016sw/article/details/79284369
http://blog.csdn.net/sx_csu2016sw/article/details/79284427
http://blog.csdn.net/sx_csu2016sw/article/details/79284449
http://blog.csdn.net/sx_csu2016sw/article/details/79284469
http://blog.csdn.net/sx_csu2016sw/article/details/79284481
http://blog.csdn.net/sx_csu2016sw/article/details/79284491
http://blog.csdn.net/sx_csu2016sw/article/details/79284509
http://blog.csdn.net/sx_csu2016sw/article/details/79284525
http://blog.csdn.net/sx_csu2016sw/article/details/79284547
http://blog.csdn.net/sx_csu2016sw/article/details/79284567

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值