2021-08-18

最新推荐文章于 2024-07-16 19:26:54 发布

零序hz

最新推荐文章于 2024-07-16 19:26:54 发布

阅读量252

点赞数 4

文章标签： python 爬虫

本文链接：https://blog.csdn.net/a266867400/article/details/119774298

版权

Python爬取站长素材中免费简历模板

1. requests模块

1.1 模块介绍

requests是使用Apache2 licensed 许可证的HTTP库，比urllib2模块更简洁
是python中原生的一款基于网络请求的模块，简单便捷，功能强大，效率高。

1.2环境安装

pip install requests

1.3使用步骤

指定url（同时进行UA伪装和请求参数处理）
发起请求
获取响应数据
持久化存储

2.xpath解析

2.1 xpath解析原理：

   实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。
   调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

2.2 环境安装：

    pip install lxml

2.3 实例化一个etree对象：from lxml import etree

 将从互联网上获取的源码数据加载到该对象中: etree.HTML('page_text')

2.4 xpath表达式

/和//:前者表示一个层级，后者表示多个层级
属性定位：//div[@class='city'] tag[@src="value"]
索引定位：//div[@class="top"]/li[3] 索引是从1开始的。
取文本：
	 /text() 获取的是标签中直系的文本内容
	 //text() 标签中非直系的文本内容（所有的文本内容）
取属性：/@src

3.format函数的使用

Python2.6 开始，新增了一种格式化字符串的函数 str.format()，它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。
format 函数可以接受不限个参数，位置可以不按顺序。
eg:

	addr="中国{}".format("辽宁大连")
	print(addr)
	#结果：中国辽宁大连
	
	addr1="{2}{0}{1}".format("辽宁","大连","中国")
	print(addr1)
	#结果：中国辽宁大连

	print("国家:{country}, 省份:{pro},城市:{city}".format(country="中国", pro="辽宁",city="大连"))
	#结果：国家:中国, 省份:辽宁,城市:大连

4.实例

4.1 导入要用的模块

	import requests
	from lxml import etree
	import os

4.2 创建文件夹

	#创建一个文件夹
    if not os.path.exists('./ResumeLibs'):  # 如果不存在
        os.mkdir('./ResumeLibs')

4.3 确定headers与url

	headers = {
        'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'

    }
     url = 'http://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&issale=&classID=864&page={}'

4.4 主体代码

    for pageNum in range(1,5):  #页码可自己设置（这里取1,2,3,4）
        new_url =url.format(pageNum)
        page_text = requests.get(url=new_url,headers=headers).text #获取响应数据.text返回的是字符串形式的响应数据

        tree = etree.HTML(page_text)
        div_list = tree.xpath('//div[@id="container"]/div')
        print(div_list) #在此打印确认是否爬取到想要的element
        for li in div_list:
            resume_src = 'http:'+li.xpath('./a/@href')[0]  #注意原网站爬取到的属性无"http:"            
            resume_name = li.xpath('./a/img/@alt')[0]+'.zip'

            #对每个简历页面发起请求
            detail_text = requests.get(url=resume_src, headers=headers).text
            tree1 = etree.HTML(detail_text)
            #解析出下载链接
            download_src = tree1.xpath('//div[@class="clearfix mt20 downlist"]/ul/li[1]/a/@href')[0]

            #对下载链接发起请求，  content返回的是二进制形式的图片数据
            down_load_resume = requests.get(url=download_src, headers=headers).content
            down_load_path = './resumelibs/' + resume_name

            with open(down_load_path,'wb') as fp:
                 fp.write(down_load_resume)
                 print(resume_name,'over！！！')