【Python实战】男生梦寐以求且随时会被和谐的妹子图网站爬取

最新推荐文章于 2021-07-30 16:35:16 发布

小可爱酥酥

最新推荐文章于 2021-07-30 16:35:16 发布

阅读量2.6k

点赞数 4

分类专栏：关于Python 文章标签： python xpath 爬虫程序员编程语言

本文链接：https://blog.csdn.net/ChengYin1124/article/details/118488765

版权

本文介绍了使用Python进行妹子图网站的爬取，涉及requests和lxml库，通过grequests加速请求。提供了单线程和多线程（gevent）的爬虫代码示例，并分享了Python学习资源，包括学习路线、视频教程、电子书等。

摘要由CSDN通过智能技术生成

工具环境：

谷歌
python
pycharm

依赖库：

requests 发送http请求，下载图片，lxml 解析html文件

在这里插入图片描述

grequests 基于gevent的异步http请求库，加快爬取速度源文件
get_image.py 每次发送一个请求
get_image_gevent.py 每次发送五个请求

注：可以在get_images函数中修改图片存放目录

全部代码：

# -*- coding: utf-8 -*-
# 使用grequests 重写，提高爬图速度

import os
import requests
import grequests
import time
from lxml import html

def get_response(url):

    headers = {
   
        "headers" : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.94 Safari/537.36"
    }
    
    response = requests.get(url, headers = headers)
    return response

# 获取每个页面的url
def get_page_urls():

    start_url = 'http://girl-atlas.com/'
    response = get_response(start_url)
    page_urls = []

    page_urls.append(start_url)
    while True:
        parsed_body = html.fromstring(response.text)
        next_url = parsed_body