爬虫demo

最新推荐文章于 2019-08-09 15:32:00 发布

HUNSTOOOjian

最新推荐文章于 2019-08-09 15:32:00 发布

阅读量255

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/qq_15673239/article/details/78884567

版权

java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

使用代理服务器爬取网站内容
由于实验数据的需要，本人采用爬虫在网络上爬取资源。当然本人所搭建的爬虫属于菜鸟级别的，若有不妥之处，还请批评指正。爬虫的原理比较简单，主要注意几点细节即可。
我们重点针对的细节问题是：
（1）对于被爬取网站，同一爬虫ID识别机制，我们采用代理服务器的方式进行轮询代理。
（2）对于被爬取网站的不稳定性，我们采用多次爬取知道成功的机制。
（3）为了不影响被爬取网站的正常服务。我们需要降低我们的爬取频率。

Outlines
爬虫框架
这里写图片描述
代理服务器的搭建.

代理服务器有很多可以选择，我这里采用的Apache服务器在centos上直接搭建的。搭建过程需要关闭centos的防火墙。
Centos是自带Apache服务器的。如果没有请移步可以去Apache官网下载，并自行安装。
进入到Apache的配置文件中，默认的目录如下：/etc/httpd/conf/httpd.conf
修改的内容位于底部：
（1） NameVirtualHost *：80
（2）

 <VirtualHost *:80>
            ProxyRequests On
            ProxyVia On
            <Proxy *>
                Order allow,deny
                Allow from all
            </Proxy>
    </VirtualHost>

修改完成后，重启服务器即可。Service restart httpd.
Java代码部分：
System.getProperties().setProperty(“http.proxyHost”, ip);
System.getProperties().setProperty(“http.proxy”+ “Port”, port);
通过上面两行代码，修改Java虚拟机的网络代理地址以及端口。
详情见：git。

HUNSTOOOjian

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫demo

使用代理服务器爬取网站内容由于实验数据的需要，本人采用爬虫在网络上爬取资源。当然本人所搭建的爬虫属于菜鸟级别的，若有不妥之处，还请批评指正。爬虫的原理比较简单，主要注意几点细节即可。我们重点针对的细节问题是：（1）对于被爬取网站，同一爬虫ID识别机制，我们采用代理服务器的方式进行轮询代理。（2）对于被爬取网站的不稳定性，我们采用多次爬取知道成功的机制。（3）为了不影响被爬取网站...
复制链接

扫一扫