利用Python网络爬虫实现爬取西刺代理网站的免费IP列表（添加请求头）

最新推荐文章于 2020-04-17 08:38:00 发布

逆天崛起

最新推荐文章于 2020-04-17 08:38:00 发布

阅读量852

点赞数

分类专栏： Python 文章标签：爬虫屏蔽 Python IP代理西刺代理

本文链接：https://blog.csdn.net/weixin_43330908/article/details/82950695

版权

Python 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

由于西刺代理会屏蔽，因此需添加请求头header,开发环境是PyCharm,利用requests库和bs库，User_Agent换成你们自己浏览器的即可

import requests
from bs4 import BeautifulSoup
User_Agent='Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'#火狐浏览器源码查看器中消息头的原始消息头可查看
header={}
header['User-Agent']=User_Agent     #设置请求头，模拟浏览器访问
url='http://www.xicidaili.com/'
r=requests.get(url,headers=header).text
#print(res)
soup=BeautifulSoup(r,'html.parser')  #解析获取到的访问页面

r=soup.find_all('tr')               #获取每个tr行
#print(r)
aip=[]
for tr in r:
    ltd=tr.find_all('td')
    if len(ltd)==0:                #排除那些不包含ip信息的tr行
        continue
    sip=[]                         #sip列表每写完一个完整ip，都置空，来写下一个ip
    for td in ltd:
        sip.append(td.string)      #将一个有效tr行中的每个有效td列元素加入到一个sip列表中
    aip.append(sip)                #将每次得到的一个的sip列表加入到总的aip列表中
#    print(aip)
for i in range(len(aip)):
    print("{},{},{},{},{},{}\n".format(aip[i][1],aip[i][2],aip[i][3],aip[i][4],aip[i][5],aip[i][6]))

逆天崛起

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用Python网络爬虫实现爬取西刺代理网站的免费IP列表（添加请求头）

由于西刺代理反爬，因此需添加请求头header,开发环境是PyCharm,利用requests库和bs库import requestsfrom bs4 import BeautifulSoupUser_Agent='Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'#火狐浏览器源码查看器...
复制链接

扫一扫