python简单爬虫,爬取LOFTER上的图片

python爬取LOFTER上的图片
@python 3.7
今天试着使用python requests包和BeautifulSoup包爬取LOFTER上的美图。
首先介绍一下环境:python3.7 mac.OSX系统
爬前准备工作分析网站信息:
要爬取的网址为例,使用Chrome里开发者工具查看其代码,(对不起博主“妹子搬运工”了,现在看了一下,这个网址已经访问不了~~)如图所示
查到网址上图片源
可以发现该图片源的网址为<img src>下,这样就给了我们很大的方便。这个在代码里说。

import requests
from bs4 import BeautifulSoup

headers = {
		'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
        'Referer': 'http://www.lofter.com'
}#反反爬用

def get_img_url(url):#从url里获取img的url
	response = requests.get(url,headers = headers)#模拟浏览器登录网页
	soup = BeautifulSoup(response.text,'lxml')#针对beaufirulsoup4更改了一下,之前用html.parser,现在修改为'lxml'
	title = soup.title.string#后面下载下图片后命名时使用
	img_url_temp = soup.select('img')#找到<img src>图片的位置
	img_url_list  = [i.get('src') for i in img_url_temp]#获取img的所有网址,生成list
	return img_url_list,title

def get_img(img_url_list,title):
	index = 0
	for url in img_url_list:
		res = requests.get(url,headers=headers)
		f = open("/Users/xxxx/Desktop/craw/images/" + title +"%d.jpg" % index, 'wb')# 如果使用osx系统,这儿"xxxx"这换成你的用户名,如果是windows的话是另一种,这里是你要存文件的路径
		f.write(res.content)
		f.close()
		index += 1
	return 0
url = "http://beautyimg001.lofter.com/"
img_url_list,title = get_img_url(url)
get_img(img_url_list[1:],title)#img_url_list[0]是博主的头像图片,去掉~~
		


over,使用pycharm的话,run就可以了。运行完毕后,你就可以在/Users/xxxx/Desktop/craw/images/这个路径下找到你下载下来的图片。just like this picture:
在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值