批量抓取数据容易遇到的瓶颈

php数据采集抓取
1. 常用函数:curl, file_get_contents
2. 抓取图片
返回内容存储到图片文件 file_put_contents
 
3. 防屏蔽
设置ip,user_agent
sleep 延迟,降低抓取频率
 
大数据量采集
4. 并发
利用消息队列,例如 httpsqs
多进程
 
5. 内存瓶颈
php脚本变量未及时释放
php适度设置 mem_limit
多个进程
 
6. linux文件缓存问题
root权限
sync && echo 3 > /proc/sys/vm/drop_caches
 
7. 带宽瓶颈
上传
下载
 
8. mysql连接次数瓶颈
多台机器多个mysql,各自存储,周期性同步到主机
 
9. 瓶颈测试
针对可能的瓶颈测试找出
木桶短板理论
 
10. 记录抓取日志
 
 
x. 阿里云
可以使用内网ip
 
多进程抓取
http://www.epooll.com/archives/806/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值