这次我们爬取的是某个免费ip代理
咳咳,何为骚操作呢,就是爬取他们提供的ip地址,再利用那ip地址去爬取他们的网站资源
网站链接我就不放在这里了,还是留一点点脸,
接下来还是老规矩,爬虫五部曲,踩点,观察,进入,扒取,揣兜
爬虫五部曲
踩点
踩点顾名思义就是找到我们要去米西米西的那个地方,比如爬取百度那么踩点地点就是他们的地址www.baidu.com,同样我们这里也是一样的,上面说了本次操作有点小贱,这里就不公布本次受害者地点了
观察
所谓观察就是观察网页结构,分析我们要的那个东西我们怎么样才能把它拿到手里,接下来上受害者的解刨图
通过观察我们发现他把我们要的东西藏在一个名叫tr的口袋里面了,我们先拿个小本本记下来,为等会行动做准备
进入
踩点也踩了,我们也知道我们的目标把我们要的东西藏在哪里了,接下来我们就要接近目标
咳咳,接近目标之前记得准备好扳手,螺丝刀,锤子
useragent用来化妆的,防止受害者把我们认出来
requests相当于打开受害者家的钥匙
random就是随机的,也是伪装作用,把自己伪装的更像受害者经常接触的人
lxml就是我们本次最重要的作案工具,之前的一切都是为了这一步,为了从他身上把我们要的东西扒拉下来
from fake_useragent import UserAgent # 这个模块是从网络上获取ua
import requests # requests用于发起请求
import random # 用于随机
from lxml import etree # xpath解析模块
作案工具有了接下来我们就要钥匙进入他家吧
为了作案不被发现我们还要给自己穿一件隐身衣,ip代理
proxies_list=[
'106.55.15.244:8889',
'119.183.250.1:9000'
'220.173.37.128:7890',
'223.96.90.216:8085',
'47.100.34.198:8001',
'103.103.3.6:8080',
'27.192.200.7:9000',
'113.237.3.178:9999',
'45.228.188.241:999',
'211.24.95.49:47615',
'191.101.39.193:80',
'103.205.15.97:8080',
'185.179.30.130:8080',
'190.108.88.97:999',
'182.87.136.228:9999',
'167.172.180.46:33555',
'58.255.7.90:9999',
'190.85.244.70:999',
'175.146.211.158:9999',
'36.56.102.35:9999',
'131.153.151.250:8003',
'195.9.61.22:45225',
'43.239.152.254:8080'
]#ip列表
random_proxies = random.choice(proxies_list)#从列表随机选取ip
# 创建headers
proxies