一个半月前,在编写了第一个反爬虫并撰写了博客:【反爬虫】在阿里云服务器所搭建的个人博客中通过Nginx进行反爬虫测试:禁止Python爬虫直接爬取博客页面实战——以信息校验型User-Agent反爬虫为例后,在不断尝试cookie反爬虫时博主已经当场自闭。今天在请教了老师并测试想法后,发现一键安装的宝塔linux有个大问题,因此在这里记录一下。
主要问题
nginx配置文件基础知识
nginx由模块组成,而这些模块由配置文件中特定的指令控制,也就是说nginx的配置文件决定了nginx及其模块的工作方式。nginx的配置文件分为主配置文件和辅助配置文件:主配置文件名为nginx.conf,默认存放在/etc/nginx目录中;辅助配置文件要求以.conf作为文件后缀,并且默认存放在/etc/nginx/conf.d目录中。注意的是,nginx允许同时存在多个配置文件。
问题提出
按照nginx配置文件基础知识,博主成功找到了自己之前白嫖了一年的阿里云服务器上的nginx主配置文件:/www/server/nginx/conf/nginx.conf。值得注意的是,由于博主比较菜鸡又爱玩并且迫切想要搭建属于自己的个人博客,所以当时选择使用宝塔linux一键安装nginx。
那么问题来了,在这个主配置文件/www/server/nginx/conf/nginx.conf中,哪怕是编写最基础的user-agent反爬虫都没有卵