正确的使用HTTP代理

最新推荐文章于 2023-01-11 16:12:11 发布

Laicaling

最新推荐文章于 2023-01-11 16:12:11 发布

阅读量190

点赞数 1

分类专栏：网络爬虫数据采集 http代理

本文链接：https://blog.csdn.net/Laicaling/article/details/109725919

版权

HTTP代理网络爬虫数据采集代理IP 反爬机制

关键词由CSDN通过智能技术生成

网络爬虫同时被 3 个专栏收录

206 篇文章 3 订阅

订阅专栏

数据采集

198 篇文章 0 订阅

订阅专栏

http代理

189 篇文章 0 订阅

订阅专栏

HTTP代理对于网络爬虫是一种很常见的协议，HTTP代理协议也是大数据时代不可缺少的一部分。HTTP代理在网络爬虫中发挥出了他大量用途。HTTP代理其实有许多用途，例如：刷票，爬虫，抢单，刷单，等等一系列业务都适合HTTP代理。其实对于网络爬虫工作来着说，许多网络工作者都不知道如何使用HTTP代理。那么如何才能正确使用HTTP代理呢？
1、大数据时代，各类网站的限制，限制爬虫，限制访问等导致无法访问和获取数据，这对爬虫用户就会产生极大的影响，这是网络爬虫用户就会运行HTTP代理来完成这些工作。网络爬虫需要在短时间内采集到大量数据，就需要运行HTTP代理IP，避免网站的反爬和网站的IP限制。使用网络爬虫程序接入HTTP代理，直接采集数据即可。
使用HTTP代理方案：

const http = require("http");
const url = require("url");
// 要访问的目标页面
const targetUrl = "http://httpbin.org/ip";
const urlParsed = url.parse(targetUrl);
// 代理服务器(产品官网 www.16yun.cn)
const proxyHost = "t.16yun.cn";
const proxyPort = "36600";
// 生成一个随机 proxy tunnel
var seed = 1;
function random() {
    var x = Math.sin(seed++) * 10000;
    return x - Math.floor(x);
}
const tunnel = random()*100;
// 代理验证信息
const proxyUser = "username";
const proxyPass = "password";
const base64    = new Buffer.from(proxyUser + ":" + proxyPass).toString("base64");
const options = {
    host: proxyHost,
    port: proxyPort,
    path: targetUrl,
    method: "GET",
    headers: {
        "Host": urlParsed.hostname,
        "Proxy-Tunnel": tunnel,
        "Proxy-Authorization" : "Basic " + base64
    }
};
http.request(options, function (res) {
    console.log("got response: " + res.statusCode);
    res.pipe(process.stdout);
}).on("error", function (err) {
    console.log(err);
}).end();