爬虫demo

使用代理服务器爬取网站内容
由于实验数据的需要,本人采用爬虫在网络上爬取资源。当然本人所搭建的爬虫属于菜鸟级别的,若有不妥之处,还请批评指正。爬虫的原理比较简单,主要注意几点细节即可。
我们重点针对的细节问题是:
(1)对于被爬取网站,同一爬虫ID识别机制,我们采用代理服务器的方式进行轮询代理。
(2)对于被爬取网站的不稳定性,我们采用多次爬取知道成功的机制。
(3)为了不影响被爬取网站的正常服务。我们需要降低我们的爬取频率。

Outlines
爬虫框架
这里写图片描述
代理服务器的搭建.

代理服务器有很多可以选择,我这里采用的Apache服务器在centos上直接搭建的。搭建过程需要关闭centos的防火墙。
Centos是自带Apache服务器的。如果没有请移步可以去Apache官网下载,并自行安装。
进入到Apache的配置文件中,默认的目录如下:/etc/httpd/conf/httpd.conf
修改的内容位于底部:
(1) NameVirtualHost *:80
(2)

 <VirtualHost *:80>
            ProxyRequests On
            ProxyVia On
            <Proxy *>
                Order allow,deny
                Allow from all
            </Proxy>
    </VirtualHost>

修改完成后,重启服务器即可。Service restart httpd.
Java代码部分:
System.getProperties().setProperty(“http.proxyHost”, ip);
System.getProperties().setProperty(“http.proxy”+ “Port”, port);
通过上面两行代码,修改Java虚拟机的网络代理地址以及端口。
详情见:git

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值