python好看图案_Python:好看的男人们，快到碗里来！

最新推荐文章于 2024-02-29 21:35:46 发布

weixin_39525097

最新推荐文章于 2024-02-29 21:35:46 发布

阅读量223

点赞数

文章标签： python好看图案

title: 使用 Python 爬取帅哥到自己的电脑 date: 2018-11-18 01:03:22 tags: - 教程 - python - python爬虫 - python基础 categories: - python

写在前面

前不久，公众号后台有妹子不高兴了，私信我说，我为什么会觉得我公众号的人都是喜欢看性感女人呢？什么时候发发性感男人啊。

想想也是，毕竟关注这个公众号有 15.6% 是妹纸呢。怎么能没有性感男人呢？

那么接下来就把你想要的帅哥，用 Python 把它们装进自己的电脑。

答应我，先别激动好么？

分析帅哥图片地址

首先来分析一下我们要爬取的这些图片地址，通过 Chrome 的开发者工具可以看到这些图片的地址在 img 标签中，但是这个地址有点奇怪，在 src 里面还有一个 src 指向图片的地址，我们要的图片地址就是在第二个 src 指向的地址，所以我们的正则应该是这样：

'

.*?'

当我们要点击下一页的时候呢，可以发现请求地址携带了一个参数 /index_2.html ,所以我们可以通过这个变量来获取多页的图片数据。

爬取性感男人图片

那么分析完之后我们就开始下手吧，我们可以创建一个叫做 shuaige 的图片文件夹，专门来放这些帅哥的

os.mkdir(dirName)

os.chdir(dirName)

接着我们可以定义几个变量：

pageNumber = 2 #用于获取不同页数的图片

x = 0 #用于图片名称

img_address = [] #存放爬取到的图片地址

比如我们想要获取第 2 到第 4 张图片，那么我们就可以写一个循环来获取数据：

while pageNumber < 5 :

page_url = url + '/index_'+str(pageNumber)+'.html' #获取不同页数的图片

addrs = find_imgs(page_url) #获取地址

for i in addrs:

if i in img_address :

continue

else:

img_address.append(i) # 降低至存追加到img_address这个变量里面

pageNumber += 1

for each in img_address:

filename = str(x) + ".jpg"

x+=1

with open(filename,'wb') as f: # 将图片写入文件夹

img = url_open(each).content

f.write(img)

ok，我们来运行一下，可以看到在我们的项目目录中创建了一个叫做 shuaige 的文件夹，python 正在下载我们要爬取的图片：

打开文件夹一看，一堆性感男人都有了：

友情提示：小爬怡情，大爬伤身！

完整代码：

import os

import re

import requests

def url_open(url):

# 以字典的形式添加请求头

header = {

'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"

}

# 使用get方法发送请求获取网页源码

response = requests.get(url, headers=header)

return response

def find_imgs(url):

html = url_open(url).text

pattern = re.compile('

.*?',re.S)

img_addrs = re.findall(pattern, html)

return img_addrs

def download_shuaige(dirName="shuaige"):

os.mkdir(dirName)

os.chdir(dirName)

pageNumber = 2

x = 0

img_address = []

while pageNumber < 5 :

page_url = url + '/index_'+str(pageNumber)+'.html'

addrs = find_imgs(page_url)

print(len(addrs))

for i in addrs:

if i in img_address :

continue

else:

img_address.append(i)

print(len(img_address))

for each in img_address:

print(each)

pageNumber += 1

for each in img_address:

filename = str(x) + ".jpg"

x+=1

with open(filename,'wb') as f:

img = url_open(each).content

f.write(img)

if __name__ == '__main__':

url = "http://www.shuaige5.com/tag/xinggannanren"

download_shuaige()

相关

ps：还没获取我精心准备的 Python 电子书和思维导图等干货的可以在我的公众号「学习Python的正确姿势」中发送 python 免费获取哦！

别忘了点个赞哦！

weixin_39525097

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。