1.IP有关
(1)什么是IP
IP地址是指互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),用来与其他电脑联络是地址。
(2)为什么IP被封
IP被封常被认为是自我保护,组织外部攻击,也可能是virus,malware or spam导致的。
(3)如何应对IP被封问题
可以参考:https://www.cnblogs.com/IT-Scavenger/p/9883489.html
我这里使用代理IP 代理IP方法:https://jingyan.baidu.com/article/c1a3101e5751bede646deb5a.html
2.抓取西刺代理
抓取西刺代理,并构建自己的代理池。
代码:
url = 'http://www.xicidaili.com/wn/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36',
'Host': 'www.xicidaili.com'
}
r = requests.get(url, headers=headers)
html = BeautifulSoup(r.text, 'html.parser')
table = html.find('table')
ip_text = table.findAll('tr')
ip_List = []
if ip_text is not None:
for i in range(1, len(ip_text)):
# 得到每一个ip信息中的每一个单独项信息,即每一个单元格的数据信息
ipTag = ip_text[i].findAll('td')
# for j in range(len(ipTag)):
temp = {
'ip_life': ipTag[8].get_text(),
'ip_addr': ipTag[1].get_text()+':'+ipTag[2].get_text()
}
ip_List.append(temp)
for i in range(len(ip_List)):
print (ip_List[i]['ip_life'], ip_List[i]['ip_addr'])
ip_confirm(ip_List[i]['ip_addr'])
结果: