网络爬虫学习 python

最新推荐文章于 2024-07-23 14:36:35 发布

SpecialBinary

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量196

点赞数

分类专栏： python 文章标签： python 网络爬虫源码库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/k_k975076173/article/details/74942990

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

python 爬虫下载图片

使用的第三方库:urllib2,urllib,bs4

步骤：

1.打开网页，获取源码

相关问题

*网页禁止爬虫（反爬虫机制）[获取不到内容，请求失败，ip容易被封]

解决方法:伪装（加上浏览器相关信息）

2.获取图片

3.下载

相关内容

*字符串格式化(占位符)

4.多页下载

*range()（生成一个数列（含头不含尾））

代码

# -*- coding:utf8 -*-

#导入第三方库

import urllib

import urllib2

from bs4 import BeautifulSoup

#1.打开网页获取源码(需要爬的网页网址)

#以www.wmpic.me为例

url = 'http://www.wmpic.me'

#定义全局变量x

x = 0

#定义函数

def crawl(url):

#获取浏览器头部信息

headers = (#在网页上获取的 user-Agent内容)

#伪装成浏览器

req = urllib2.Request(url,headers = herders)

#打开网页

page = urllib2.urlopen(req)

#阅读网页内容

contents = page.read()

print contents

#创建一个soup 对象

soup = BeautifulSoup(contents,'html.parser')

#找到所有img标签

photos = soup.find_all('img')

#循环遍历网址

for photo in photos

#获取全局变量

global x

#获取网址

link = photo.get('src')

print link

#下载文件

urllib.urlretrieve(link,'下载文件存储路径/%s.jpg',%x)

x+=1

print "正在下载第%s张"%x

#调用函数

crawl(url)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫学习 python

python 爬虫下载图片使用的第三方库:urllib2,urllib,bs4步骤：1.打开网页，获取源码相关问题*网页禁止爬虫（反爬虫机制）[获取不到内容，请求失败，ip容易被封]解决方法:伪装（加上浏览器相关信息）2.获取图片3.下载相关内容*字符串格式化(占位符)4.多页下载*range()（生成一个数列（含头不含尾））
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。