Python 爬虫入门 IP代理使用

首先获取Ip列表

#encoding=utf8
import urllib
from lxml import etree

import requests

from bs4 import BeautifulSoup

User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
header = {}
header['User-Agent'] = User_Agent

url = 'http://www.xicidaili.com/nn/1'
req = urllib.request.Request(url,headers=header)
res = urllib.request.urlopen(req).read()

res =requests.get(url,headers=header).text
ip=etree.HTML(res)

ip=ip.xpath('//*[@id="ip_list"]/*')
myIp=""
myPort=""
data=""
for i in range(0,len(ip)):
    'IP地址 端口'
    if i==0:
        continue
    for j in range(0,len(ip[i])):

        if j==1:
            myIp=ip[i][j].text

        if j==2:

            res = myIp+ " "+ip[i][j].text
            data=data+res+"\n"


with open("ip.txt","w") as f:
    f.write(data)

然后 检测ip是否可用

#encoding=utf8
import urllib
import socket
from urllib import request

socket.setdefaulttimeout(3)
f = open("ip.txt")
lines = f.readlines()
proxys = []
for i in range(0,len(lines)):
    ip = lines[i].strip("\n").split(" ")
    proxy_host = "http://"+ip[0]+":"+ip[1]
    proxy_temp = {"http":proxy_host}
    proxys.append(proxy_temp)
url = "http://ip.chinaz.com/getip.aspx"
for proxy in proxys:
    try:
        proxy_support = request.ProxyHandler(proxy)
        opener = request.build_opener(proxy_support)
        res = opener.open(url).read()
        print (res)
    except Exception as e :
        print (proxy)
        print (e)
        continue

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

安果移不动

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值