爬虫入门,带你用30行代码爬取高清美女写真,附安装包+源码

1、准备工作

1 高清壁纸:https://www.36992.com/girls/list-1.html

2 Python环境

Python3.9新特性:
字典“并集”运算符
类型提示的改善
装饰器语法更加灵活
classmethod 支持包装其他描述器
新增模块、函数、方法
Python官网下载:https://www.python.org/

3 PyCharm编译器

优点:
1 )每个文件都有其输出窗口
2 )可以终止进程(只要点下按钮就行)
3 )各种提示超强:
①没用的变量颜色会变灰
②用错了的变量下面会有红色波浪线
③书写提示

4 )索引功能超强,
PyCharm官网下载:https://www.jetbrains.com/pycharm/download/#section=windows

4 requests,lxml库安装

Requests:

打开cmd命令管理器,输入pip install requests,显示如下图则安装成功。
在这里插入图片描述

lxml:

打开cmd命令管理器,输入pip install lxml,显示如下图则安装成功。
在这里插入图片描述

2 、代码和效果展示

1 >代码


import requests
from lxml import etree

'''
Python 交流群:
838 123 629
'''

def down_image( page ):
    print(f'页面{page},开始')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
    }
    url = f'https://www.36992.com/girls/list-{page}.html'
    resp = requests.get(url,headers=headers)
    resp.encoding = 'gbk'
    with open('index.html', 'wb') as f:
        f.write(resp.content)
    tree = etree.HTML(resp.content)

    # 页面标签,XPath的高级用法,相对路径
    node_list = tree.xpath('//li//img')
    print(len(node_list))

    sub_url_list = []
    for node in node_list:
        srcPath=node.xpath('./@src')[0]
        # 获取网页路径,加if是规范写法
        if len(srcPath) > 0:
            img_url =str(srcPath).replace("pic_360","pic")
            title = node.xpath('./@alt')[0]
            sub_url_list.append((img_url, title))

    # 开始保存图片
    for sub_url, title in sub_url_list:
        suffix = sub_url.split('.')[-1]
        img_content = requests.get(sub_url).content
        with open(f'123/{title}.{suffix}', 'wb') as f:
            f.write(img_content)
            f.close()
    print(f'页面{page},完成')

if __name__ == '__main__':
    for page in range(1,60):
        down_image(page)

2 >效果

在这里插入图片描述

3 、知识点

1 >路径解析

第一页:https://www.36992.com/girls/list-1.html
在这里插入图片描述
第二页:https://www.36992.com/girls/list-2.html
在这里插入图片描述
规律:url = f’https://www.36992.com/girls/list-{page}.html’

扩展知识点:HTTP协议

2 >审查元素

img:

在这里插入图片描述

扩展知识点:HTML

3 > XPath定位

基本概念

1 )绝对路径:绝对路径是指目录下的绝对位置,直接到达目标位置,通常是从盘符开始的路径。

node.xpath(’./a/img/@src’)

优点:解析简单;
缺点:呆板,不能阻止页面变化

在这里插入图片描述

2 )相对路径:由这个文件所在的路径引起的跟其它文件的路径关系。

node_list = tree.xpath(’//dd’)
优点:灵活,可以根据元素属性绑定(id,class,层级),不担心,页面变化
缺点:执行时,需要解析,消耗时间。
在这里插入图片描述

扩展知识点:XPath关系属性

4 > 自定义函数:def down_image( page ):

1 )函数是组织好的。
2 )可重复使用的。
3 )用来实现单一,或相关联功能的代码段。
4 )函数能提高应用的模块性,和代码的重复利用率。
5 )你已经知道Python提供了许多内建函数,比如print()。
6 )你也可以自己创建函数,这被叫做用户自定义函数。
在这里插入图片描述

扩展知识点:类的继承

4.总结

用Python实现一个小功能很简单,只要仔细跟着教程一步步操作,依葫芦画瓢,就可以做到。

粉丝福利

掌握基础知识,可以更快速的帮助你举一反三。

由于篇幅受限,大量跟爬虫相关的,HTTP、web、HTML、自动化的知识,可以用于反爬,反反爬,这里不一一展开了。点击关注,持续更新。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值