废话:我有一台centos7的服务器,吃灰了很久,本来用来部署博客网站的,但是也完全利用不起来,浪费我的钱啊!接下来我要让它成为一个高匿的爬虫代理服务器。
场景:
为什么要搭建这个东西,而不直接使用爬虫代理服务商提供的代理?假设根据爬取一个网站的经验发现这个网站在爬取频率不高的情况下不会封掉IP,但是我要求代理的质量要很高,不要像一些爬虫代理服务商提供的代理一样几乎没有多少请求是通的,虽然会使用重试机制,但完全是在浪费时间(其实我只想让它不要封我正在使用的IP)。这个时候搭建一个高匿代理服务器去爬取是多么的完美。
squid简介
Squid是一个功能齐全的HTTP/1.0代理,它几乎(但不完全是——我们正在实现!)一个功能齐全的HTTP/1.1代理。Squid提供了一个丰富的访问控制、授权和日志记录环境来开发web代理和内容服务应用程序。Squid提供了一组丰富的流量优化选项,其中大多数默认情况下都是启用的,以实现更简单的安装和更高的性能。
详情查看官方网址:http://www.squid-cache.org/Doc/config/acl/
服务器安装配置步骤:
1、使用如下命令安装squid以及用来生成密码文件的httpd-tools
yum install sq