【爬虫】6.学习IP相关知识

1.IP有关

(1)什么是IP

IP地址是指互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),用来与其他电脑联络是地址。

(2)为什么IP被封

IP被封常被认为是自我保护,组织外部攻击,也可能是virus,malware or spam导致的。

(3)如何应对IP被封问题

可以参考:https://www.cnblogs.com/IT-Scavenger/p/9883489.html

我这里使用代理IP 代理IP方法:https://jingyan.baidu.com/article/c1a3101e5751bede646deb5a.html

 

2.抓取西刺代理

 

抓取西刺代理,并构建自己的代理池。

https://www.xicidaili.com/

代码:

url = 'http://www.xicidaili.com/wn/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36',
    'Host': 'www.xicidaili.com'
}
r = requests.get(url, headers=headers)
html = BeautifulSoup(r.text, 'html.parser')
table = html.find('table')
ip_text = table.findAll('tr')
ip_List = []
if ip_text is not None:
    for i in range(1, len(ip_text)):
            # 得到每一个ip信息中的每一个单独项信息,即每一个单元格的数据信息
            ipTag = ip_text[i].findAll('td')
            # for j in range(len(ipTag)):
            temp = {
                'ip_life': ipTag[8].get_text(),
                'ip_addr': ipTag[1].get_text()+':'+ipTag[2].get_text()
            }
            ip_List.append(temp)
for i in range(len(ip_List)):
        print (ip_List[i]['ip_life'], ip_List[i]['ip_addr'])
        ip_confirm(ip_List[i]['ip_addr'])

结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值