简单的爬虫每日笔记

2018.3.2

怎么提升爬虫的效率

1)换个性能更好的电脑

2)网络使用光纤

3)使用多线程爬虫

4)使用多进程爬虫

5)分布式爬虫

6)提升数据的写入速度

反反爬虫的应用措施

1)随机修改User-Agent

2)禁用cookie追踪

3)放慢爬虫速度

4)使用代理动态更换ip(本机电脑的ip地址不变,动态ip是代理ip)

5)分布式(一般用不同区域的电脑,不适用一个局域网下,应为ip地址相同)

本地下载数据的一种方法

1)scrapy支持本地生成5种格式的文档,第一种方法是用命令行来运行。

2)也可以修改pipelines.py文件来进行下载,原理是item pipeline就是接收处理爬取后数据item的管道。

 



一个爬虫项目中可以写入多个爬虫文件,一般他们拥有相同的数据格式,应为他们要公用同样的配置文件settings

,items,pipielines,middlewares







  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值