python简单爬虫，爬取LOFTER上的图片

最新推荐文章于 2021-01-01 04:27:57 发布

icedragonliu

最新推荐文章于 2021-01-01 04:27:57 发布

阅读量2.3k

点赞数 1

分类专栏：技术博客文章标签： python

本文链接：https://blog.csdn.net/icedragonliu/article/details/83963155

版权

技术博客专栏收录该内容

4 篇文章 0 订阅

订阅专栏

python爬取LOFTER上的图片
@python 3.7
今天试着使用python requests包和BeautifulSoup包爬取LOFTER上的美图。
首先介绍一下环境：python3.7 mac.OSX系统
爬前准备工作分析网站信息：
以要爬取的网址为例，使用Chrome里开发者工具查看其代码，（对不起博主“妹子搬运工”了，现在看了一下，这个网址已经访问不了~~）如图所示
查到网址上图片源
可以发现该图片源的网址为<img src>下，这样就给了我们很大的方便。这个在代码里说。

import requests
from bs4 import BeautifulSoup

headers = {
		'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
        'Referer': 'http://www.lofter.com'
}#反反爬用

def get_img_url(url)：#从url里获取img的url
	response = requests.get(url,headers = headers)#模拟浏览器登录网页
	soup = BeautifulSoup(response.text,'lxml')#针对beaufirulsoup4更改了一下，之前用html.parser，现在修改为'lxml'
	title = soup.title.string#后面下载下图片后命名时使用
	img_url_temp = soup.select('img')#找到<img src>图片的位置
	img_url_list  = [i.get('src') for i in img_url_temp]#获取img的所有网址,生成list
	return img_url_list,title

def get_img(img_url_list,title):
	index = 0
	for url in img_url_list:
		res = requests.get(url,headers=headers)
		f = open("/Users/xxxx/Desktop/craw/images/" + title +"%d.jpg" % index, 'wb')# 如果使用osx系统，这儿"xxxx"这换成你的用户名，如果是windows的话是另一种，这里是你要存文件的路径
		f.write(res.content)
		f.close()
		index += 1
	return 0
url = "http://beautyimg001.lofter.com/"
img_url_list,title = get_img_url(url)
get_img(img_url_list[1:],title)#img_url_list[0]是博主的头像图片，去掉~~

over，使用pycharm的话，run就可以了。运行完毕后，你就可以在/Users/xxxx/Desktop/craw/images/这个路径下找到你下载下来的图片。just like this picture:
在这里插入图片描述