Squid工作原理

最新推荐文章于 2021-09-26 15:47:04 发布

iteye_3952

最新推荐文章于 2021-09-26 15:47:04 发布

阅读量211

点赞数

文章标签：工作 Web 浏览器 FreeBSD Cache

SQUID如何工作
[传统代理]
1.SQUID被绑定到代理服务器的3128端口。
2.客户端浏览器被配置使用代理服务器的3128端口。
3.客户端不需要配置DNS。4.代理服务器上需要配置代理服务器。
5.客户端不需要配置缺省路由。
当我们在客户端浏览器中打开一个web请求，比如“http://www.96333.com”，这时将陆续发生以下事件：
1.客户端使用某一端口（比如1025)连接代理服务器3128端口，请求web页面“http://www.96333.com”
2.代理服务器向DNS请求“www.96333.com”,得到相应的IP地址2.3.4.5。然后，代理服务器使用某一端口（比如1037)向该IP地址的80端口发起web连接请求，请求web页面。
3.收到响应的web页面后，代理服务器把该数据传送给客户端。
4.客户端浏览器显示该页面。
从www.96333.com的角度看来，连接是在1.2.3.4地1037端口和2.3.4.5的80端口之间建立的。
从client的角度看来，连接是在192.168.1.100的1025端口和1.2.3.4的3128端口之间建立的。

[透明代理]

透明代理的意思是客户端根本不需要知道有代理服务器的存在。
在以上基础上我们做以下工作：
1.配置透明代理服务器软件运行在代理服务器的3128端口。
2.配置代理服务器将所有对80端口的连接重定向到3128端口。
3.配置客户端浏览器直接连解到Internet。
4.在客户端配置好DNS.
5.配置客户端的缺省网关为192.168.1.1.

当我们在客户端浏览器中打开一个web请求，比如“http://www.96333.com”，这时将陆续发生以下事件：
1.客户端向DNS请求“www.96333.com”,得到相应的IP地址2.3.4.5。然后，客户端使用某一端口（比如1066)向该IP地址的80端口发起web连接请求，请求web页面。
2.当该请求包通过透明代理服务器时，被防火墙将该数据包重定向到代理服务器的绑定端口3128。于是，透明
代理服务器用某一端口（比如1088)向2.3.4.5的80端口发起web连接请求，请求web页面。
3.收到响应的web页面后，代理服务器把该数据传送给客户端。
4.客户端浏览器显示该页面。
从www.96333.com的角度看来，连接是在1.2.3.4地1088端口和2.3.4.5的80端口之间建立的。从client的角度看来，连接是在192.168.1.100的1066端口和2.3.4.5的80端口之间建立的。
以上就是传统代理服务器和透明代理服务器的区别所在。

[反向代理]

反向代理是相对于传统代理而言，是代理web服务器接受客户端的请求
在此，我们忽略客户端的设置，假设客户端是可以直接访问互联网
web服务器与客户端的结构如下：
假设已经将www.96333.com的域名指向了squid服务器所在的ip，并且在web服务器集群里做了dns轮询。

web server1 -|
web server2 -|- squid 服务器/ INTERNET / - Client
web server3 -|

1.客户端通过IE向DNS服务器发送访问www.96333.com的请求，由客户所在地的DNS服务器解析www.96333.com的IP为2.3.4.5并返回给用户。
2.客户收到DNS返回的服务器IP地址，重新向www.96333.com指向的IP地址发送访问请求。
3.squid服务器接收到用户的请求后，查询自身缓存中是否有用户请求内容，有则直接发送给客户端，如果没有则通过内部DNS轮询查询空闲服务器，并将客户请求发送到该服务器，在获取到用户数据并返回给用户的同时保留一份在自己本身的缓存当中。在用户看来，自己访问的是www.96333.com这个服务器，实际上真正的WEB服务器为SQUID缓存后面的服务器或者服务器集群，通过外部DNS做CNAME转向，将用户请求转发到内部真正的web服务器上去

SQUID工作原理是什么

一、SQUID缓存的存放方式：
每一台Squid 代理服务器上都有若干颗硬盘，每颗硬盘又分割成多个分区，每一个分区又可建立很多目录，目录下才放文件(Squid 把它叫object)。

二、SQUID的查询方式：
SQUID通过查询表的方式来定位某个资源的位置，所查询的表叫Hash table 和Digest table;Digest table在这里可以称之为摘要或者索引，它记录了磁盘上每个分区，每个目录里存的缓存摘要，Hash table在这里可以称之为目录或者提纲，它记录所有的Digest table表信息，SQUID接受到请求后先查询Hash table，在根据Hash table所指向的Digest table查询需要的信息。

三、SQUID服务器之间的关系：
SQUID服务器存在两种工作关系，一种为Child、Parent，当child squid server没有用户需要的数据时，就象parent server发出请求，并持续等待，直到parent server回应自己为止；另外一种为ibling，当本地SQUID server没有用户请求数据时，会向sibling server发出请求,如果sibling server没有资料则会向上级sibling或者INTERNET发送数据请求

四、SQUID运作模式
1. 当Squid Server 没有资料时，会先向Sibling 的Squid Server 要资料，如果Sibling没资料，就跳过它直接向Parent 要。
2. 向Parent 要资料，然後一直等，直到Parent 给它资料为止(Parent 自己有的资料或上Internet 去拿)。
3. 没有Parent 时，就自己上Internet 去拿。
4. 如果这三者都拿不到资料，才向用户端回报拿不到资料。
一般而言，把网路上一层的Squid Server 设成Sibling 是不错的选择(例如：一个学校将所在城市网和附近的大学设成Sibling)，因为网路上一层的Squid Server 服务对象较多，其硬件功能较强，离我们比较近，速度也比较快；万一要不到资料，我们还可以自己上Internet 去拿。那什麽时候设Parent？当您的出口只有一个，或上一层Squid Server 拿不到资料，自己也一定拿不到，只好将上一层Squid Server 设为Parent。

Squid工作原理：
Squid 启动之后，会在 RAM 建立一个 Hash Table，记录硬盘中 object 配置的情形。
Squid 又会在 RAM 中建立一个 Digest Table(摘要表) ，其功能是和其他有合作关的 Squid (Sibling)互相交换 Digest Table，万一用户端想要的资料自己没有时，可以很快的知道哪一部 Squid Server 有资料(Squid 也可以透过 ICP 向其他 Squid 查询，但速度较慢)。但是 Digest Table 本身不小，既记忆体又频宽，如果 Server 的内存不够，对外带宽不够，反而比 ICP 查询更慢。

Squid的种类【可能不太合适叫做种类，不过没有更好的词。语文太差^_^】
child、sibling、parent。

关系如下：
　　Squid Server 之间的第一种关系是：Child 和 Parent。当 Child Squid Server 没有资料时，会直接向 Parent Squid Server 要资料，然後一直等，直到 Parent 给它资料为止。
　　Squid Server 之间的第二种关系是：Sibling 和 Sibling。当 Squid Server 没有资料时，会先向 Sibling 的 Squid Server 要资料，如果 Sibling 没资料，就跳过它直接向 Parent 要或上 internet 去拿。
　　
一般 Squid Server 运作的模式是：
1. 当 Squid Server 没有资料时，会先向 Sibling 的 Squid Server 要资料，如果 Sibling 没资料，就跳过它直接向 Parent 要。
2. 向 Parent 要资料，然後一直等，直到 Parent 给它资料为止(Parent 自己有的资料或上 internet 去拿)。
3. 没有 Parent 时，就自己上 internet 去拿。
4. 如果这三者都拿不到资料，才向用户端回报拿不到资料。

编译安装Squid：
./configure --prefix=/usr/local/squid[-ip] --enable-async-io=160 --enable-icmp --enable-kill-parent-hack --enable-cache-digests --enable-default-err-language=Simplify_Chinese --enable-poll && make && make install
--enable-async-io=160：这项主要是设置async模式来运行squid，我的理解是设置用线程来运行squid，如果服务器很强劲，有1G以上内存，cpu使用SMP的方式的话可以考虑设成160或者更高。如果服务器比较糟糕就根据实际情况设了（不要太贪心哦^_^）。
--enable-icmp：加入icmp。默认不加。
--enbale-kill-parent-hack：当kill掉nobody的squid进程的时候会同时杀死它的父进程。
--enable-cache-digests：【。。。】
--enable-default-err-language=Simplify_Chinese：当有错误的时候在页面中显示简体中文。【不过squid还是会无情的把所有语言都装上，看的不顺的话手工删咯】
--enable-poll：可以提升效能。

Squid的结构介绍：
安装好的目录在/usr/local/squid-10 (这里假设我的主ip最后一段是10）
结构是：
bin/：放置squid默认写好的启动脚本。有RunAccel；RunCache；squidclient；前2个启动Squid可以使用，因为当 squid进程死了后，这个脚本可以自动检测到。 RunAccel是用于web 加速用的脚本，而RunCache是用于做squid代理用的，squidclient是用本机做squid测试的。
etc/：squid.conf在这个目录中
libexec/：函数库；
man/：帮助文件。不用说了吧。。。
sbin/ ：squid命令所在目录。一般如果我用来测试就启动squid命令。或者用这个命令创建swap，或者加-k参数重启之类的操作。
share/ ：一些错误显示的html都在里面；
var/ ：log，pid，swap都在这个目录中！
隔了很久才有空可以写这个经验体会，前一段时间一直在搞qmail，头大中，终于可以空下来了：）

先看squid的一个重要的，对我来说也是唯一需要配置的一个配置文件。选项非常多，当然，默认的squid.conf文件中对于每一个选项都有比较详细的说明，但是我还是想把我理解的以及必须要进行配置的选项罗列出来，以免过段时间自己都忘了^_^

以下的配置我是要向sina，sohu，163学习的web server的架构，试着自己去搭建一个这样的环境来看看效果到底如何。因此这里的squid不是用来做代理的，而是反向作为网站高速缓存。其实原理差不多，只是方向反一反而已，相信都能理解这点的。

使用的测试服务器为Dell 2650 双CPU至强2.4G 内存DDR 2G。OS为Freebsd 5.2.1（这里需要说明的是，从实际使用情况来看，squid跑在freebsd上的效果是最快最好的。这是由os的文件系统所决定的，千万不能用，solaris，感觉solaris的文件系统实在太慢，虽然非常稳定，而且跑多线程的效果是最好的。linux嘛~~~没有进行测试，不过感觉在 freebsd之下，solaris之上。）

Squid.conf的几个重要参数的配置说明：

http_port 61.155.143.54:80 #Squid Server侦听的端口。假设我的主页的dns server 指到61.155.143.54上的，因此我必须让squid来侦听这个IP的这个端口。

cache_mem 32 MB #要额外提供多少内存给squid使用，这里的额外是指squid会将最常用的一些缓存放到这块内存中。这个指令也是我看了官方文档后才理解的。因为一开始从实际使用情况来看，我这边设32M的话，用top命令来查看一般会达到100M左右。这点让我让我很想不通，呵呵。然后就去看官方文档，发觉 squid是这样来计算使用多少内存的：squid本身的进程大概10M-20M，然后下面我设的cache目录的大小是500M的话，那他放在内存里的 hash索引大概需要20M左右，然后再加上这里设置的cache_mem的值。官方文档建议你的实际内存大小应该是这个squid所需要总内存的2倍以上。自己量力而为吧。cache_mem当然是越大越好了。

cache_dir ufs /usr/local/squid-54/var/cache 500 16 256 #设置squid存放cache目录的位置以及大小。第一个数字500是指目录的总大小为500M（默认为100M），第二个数字16是指第一级目录为 16个，第三个数字256是指第二级目录为256个我个人觉得如果网站访问量大，并且内容很多的话，可以考虑将默认的100M改大一点，否则会报错。我就经历过，错误我忘了记录了（该死！）大致就是说超过Max的极限了，当时查了半天才找到罪魁祸首是这条指令，惭愧~~~。

cache_access_log none
cache_log none

cache_store_log none #我是将这些log记录都关了，有需要的可以将它们打开。

acl managerIP src 10.10.10.10
acl ipcanbrows dst 10.10.10.0/24 #acl应该是squid配置里面最难理解也最需要花时间的地方了。应该说只需要修改很小的一部分就可以了，像这里我只是在原来的基础上加了2条记录，前面一条的意思是我定义了10.10.10.10为源路径，另外一条是指目的端是10.10.10.0/24这个网段。而 managerIP,ipcanbrows随便取得名字。具体的规则需要下面的语句来定义。10.10.10.10就是本服务器的内网ip，而 apache server的ip就在10.10.10.0/24这个网段里，不需要用外网ip，一定程度上节约了ip地址。

http_access allow manager managerIP ipcanbrows localhost #加上2个允许就可以了。高深的配置我觉得我也不需要，用户可以访问就达到目的了：）

httpd_accel_host virtual #由于我后面的apache server是基于ip来做虚拟主机的，因此这里需要设置成virtual。

httpd_accel_port 80 #http加速的端口，因为习惯等原因，还是将后面的apache server监听80端口。

httpd_accel_uses_host_header on #如果选了virtual的话，这里必须设置成on。

这里最多只列出了5%左右的选项，但是我配置的时候就只是用到了这些，因此，如果做网站加速的话，基本设置就是这些。当然需要更强劲的功能的话就需要好好读读squid的配置文件的文档了。

最后的步骤：

1. 改变var目录的权限：chown -R nobody var

2. 创建缓存目录：sbin/squid -z

3. 启动squid：bin/RunAccel & (这边我使用squid附带的启动脚本来启动squid，有个好处就是，如果squid的进程死了的话，这个脚本会自动启动squid，对于运行在线上的服务器来说，这点太重要了。

一些使用体会：

1. squid使用时间长了，速度会变慢，我的建议是每2小时kill掉squid 进程，RunAccel脚本会自动再启动的它。

2. 写一脚本，放进crontab中，每天凌晨4点左右把cache目录清空。

#!/bin/sh
# squid clean swap and restart script by marco lu
SQUID_DIR=/usr/local/squid-54/
PID_FILE=${SQUID_DIR}var/logs/squid.pid
CACHE_DIR=${SQUID_DIR}var/cache
PPID=`ps aux | grep -i squid-54 | grep -v grep|awk '{print $2}'`
kill -9 ${PPID} > /dev/null
kill -9 `cat ${PID_FILE}` > /dev/null
rm -rf $CACHE_DIR/*
${SQUID_DIR}sbin/squid -z > /dev/null
if [ $? -eq 0 ]
then
${SQUID_DIR}bin/RunAccel & > /dev/null
fi

水平有限,希望广大高手指点!!!

原创文章如转载，请注明：转载自服务器技术 [ http://www.servertechnology.cn/ ]