总说手机没有“好壁纸”，2024年最新Python岗大厂面试官常问的那些问题

最新推荐文章于 2024-09-22 00:11:13 发布

2401_84297560

最新推荐文章于 2024-09-22 00:11:13 发布

阅读量646

点赞数 25

分类专栏： 2024年程序员学习文章标签：智能手机 python 开发语言

本文链接：https://blog.csdn.net/2401_84297560/article/details/137651603

版权

2024年程序员学习专栏收录该内容

36 篇文章 0 订阅

订阅专栏

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

复制代码

2.翻页爬取，实现批量下载

单线程版

import requests

from lxml import etree

import datetime

import time

设置保存路径

path = r’D:\test\picture_1\ ’

headers = {

“User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1”,

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

start = datetime.datetime.now()

def get_img(urls):

for url in urls:

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

html = etree.HTML(response.text)

xpath定位提取想要的数据得到图片链接和名称

img_src = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@src’)

列表推导式得到真正的图片url

img_src = [‘http://pic.netbian.com’ + x for x in img_src]

img_alt = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@alt’)

for src, name in zip(img_src, img_alt):

img_content = requests.get(src, headers=headers).content

img_name = name + ‘.jpg’

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

time.sleep(1)

def main():

要请求的url列表

url_list = [‘http://pic.netbian.com/4kmeinv/index.html’] + [f’http://pic.netbian.com/4kmeinv/index_{i}.html’ for i in range(2, 11)]

get_img(url_list)

delta = (datetime.datetime.now() - start).total_seconds()

print(f"抓取10页图片用时：{delta}s")

if name == ‘main’:

main()

复制代码

程序运行成功，抓取了10页的图片，共210张，用时63.682837s。

多线程版

import requests

from lxml import etree

import datetime

import time

import random

from concurrent.futures import ThreadPoolExecutor

设置保存路径

path = r’D:\test\picture_1\ ’

user_agent = [

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6”,

“Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1”,

“Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24”

]

start = datetime.datetime.now()

def get_img(url):

headers = {

“User-Agent”: random.choice(user_agent),

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

html = etree.HTML(response.text)

xpath定位提取想要的数据得到图片链接和名称

img_src = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@src’)

列表推导式得到真正的图片url

img_src = [‘http://pic.netbian.com’ + x for x in img_src]

img_alt = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@alt’)

for src, name in zip(img_src, img_alt):

img_content = requests.get(src, headers=headers).content

img_name = name + ‘.jpg’

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

time.sleep(random.randint(1, 2))

def main():

要请求的url列表

url_list = [‘http://pic.netbian.com/4kmeinv/index.html’] + [f’http://pic.netbian.com/4kmeinv/index_{i}.html’ for i in range(2, 51)]

with ThreadPoolExecutor(max_workers=6) as executor:

executor.map(get_img, url_list)

delta = (datetime.datetime.now() - start).total_seconds()

print(f"爬取50页图片用时：{delta}s")

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

rocess=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70)

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
[外链图片转存中…(img-4aRMxVdp-1712837732653)]

2401_84297560

关注

25
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

总说手机没有“好壁纸”，2024年最新Python岗大厂面试官常问的那些问题

设置保存路径

发送请求 获取响应

打印网页源代码来看 乱码 重新设置编码解决编码问题

内容正常显示 便于之后提取数据

xpath定位提取想要的数据 得到图片链接和名称

列表推导式 得到真正的图片url

print(f"正在为您下载图片：{img_name}")

要请求的url列表

设置保存路径

发送请求 获取响应

打印网页源代码来看 乱码 重新设置编码解决编码问题

内容正常显示 便于之后提取数据

xpath定位提取想要的数据 得到图片链接和名称

列表推导式 得到真正的图片url

print(f"正在为您下载图片：{img_name}")

要请求的url列表

最后

发送请求获取响应

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

xpath定位提取想要的数据得到图片链接和名称

列表推导式得到真正的图片url

发送请求获取响应

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

xpath定位提取想要的数据得到图片链接和名称

列表推导式得到真正的图片url