python爬虫利用代理IP分析大数据

1,在这个互联网时代,HTTP代理成了不可缺少的一部分。

我们都知道IP代理商也越来越多。那如何选择代理商成了大家选择的难题。其实爬虫用户完全可以通过代理IP的有效时间,代理IP的有效率,稳定性和自己去的需求去选择自己需要的代理IP。
随着爬虫用户越来越多,使用代理IP也多了起来,代理IP也帮助了爬虫成功采集到数据,让自己的业务有更好的发展。
大数据时代,离不开网络爬虫,网络爬虫也支持许多语言例如常见的python、java、php、c 语言等其他语言,每个语言对应的爬虫需求和环境不同,爬虫用户选择语言自然也不同。
一般爬虫都会选择python和java,python爬虫之所以被大众选择,因为使用简单。在使用python爬虫进行数据抓取的时候,也有可能IP会被限制,避免业务效率下降,这时候就需要用到隧道转发的http爬虫代理。
爬虫用户如何利用python爬虫成功采集到数据:
 

import aiohttp, asyncio

targetUrl = "http://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyServer = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

userAgent = "Chrome/83.0.4103.61"

async def entry():
    conn = aiohttp.TCPConnector(verify_ssl=False)
    async with aiohttp.ClientSession(headers={"User-Agent": userAgent}, connector=conn) as session:
        async with session.get(targetUrl, proxy=proxyServer) as resp:
            body = await resp.read()
            print(resp.status)
            print(body)

loop = asyncio.get_event_loop()
loop.run_until_complete(entry())
loop.run_forever()

2,以上就是用代理访问服务器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖洋洋的好日子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值