爬虫的开始学习20180410

最新推荐文章于 2023-06-19 13:50:36 发布

怪兽喜欢吃芒果

最新推荐文章于 2023-06-19 13:50:36 发布

阅读量233

点赞数

作为一个数据分析小菜鸟，一个等待成为数据分析的大雁，努力生长丰厚的羽翼的过程中，接触到了爬虫。数据分析怎么可能离开爬虫！！那么多精华的网站，有那么多诱人的数据，可是，在我学习网易云的几节爬虫基础后，实践之时，某短租网站把我的ip给封了，封了，封了，我第二份作业还没做完呢，于是，我选择了放弃，打开Django视频，准备学习python web框架，然后灵光一闪，作为一个资深90后，我怎么能说放弃就放弃了呢！！继续学习，继续查找！

综上，我得出了我爬虫学习过程中的第一个重要结论：设置代理IP啊，一定要不要被封IP，否则你对某网站上你感兴趣的内容就可远观不可亵玩也了！

以下内容转自https://blog.csdn.net/lammonpeter/article/details/52917264

为了做一个笔记，所以我拷贝了一份，也供大家一起学习！

Python爬虫技巧之设置代理IP

在学习Python爬虫的时候，经常会遇见所要爬取的网站采取了反爬取技术，高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力，所以同一个IP反复爬取同一个网页，就很可能被封，这里讲述一个爬虫技巧，设置代理IP。

（一）配置环境

安装requests库
安装bs4库
安装lxml库

（二）代码展示

# IP地址取自国内髙匿代理IP网站：http://www.xicidaili.com/nn/
# 仅仅爬取首页IP地址就足够一般使用

from bs4 import BeautifulSoup
import requests
import random

def get_ip_list(url, headers):
    web_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)
    return ip_list

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

if __name__ == '__main__':
    url = 'http://www.xicidaili.com/nn/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
    ip_list = get_ip_list(url, headers=headers)
    proxies = get_random_ip(ip_list)
    print(proxies)

函数get_ip_list(url, headers)传入url和headers，最后返回一个IP列表，列表的元素类似42.84.226.65:8888格式，这个列表包括国内髙匿代理IP网站首页所有IP地址和端口。
函数get_random_ip(ip_list)传入第一个函数得到的列表，返回一个随机的proxies，这个proxies可以传入到requests的get方法中，这样就可以做到每次运行都使用不同的IP访问被爬取的网站，有效地避免了真实IP被封的风险。proxies的格式是一个字典：{‘http’: ‘http://42.84.226.65:8888‘}。

（三）代理IP的使用

运行上面的代码会得到一个随机的proxies，把它直接传入requests的get方法中即可。

web_data = requests.get(url, headers=headers, proxies=proxies)

有什么问题可以留言，我们共同学习交流！

怪兽喜欢吃芒果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫的开始学习20180410

作为一个数据分析小菜鸟，一个等待成为数据分析的大雁，努力生长丰厚的羽翼的过程中，接触到了爬虫。数据分析怎么可能离开爬虫！！那么多精华的网站，有那么多诱人的数据，可是，在我学习网易云的几节爬虫基础后，实践之时，某短租网站把我的ip给封了，封了，封了，我第二份作业还没做完呢，于是，我选择了放弃，打开Django视频，准备学习python web框架，然后灵光一闪，作为一个资深90后，我怎么能说放弃就放...
复制链接

扫一扫