自从我学了Python爬虫之后，群里斗图就没输过

最新推荐文章于 2024-07-23 16:23:28 发布

程序员的成长路程

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量269

点赞数

分类专栏： Python 文章标签： python 大数据爬虫 c++

本文链接：https://blog.csdn.net/m0_46632354/article/details/105157172

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

同在一个群三年，自从我学了Python爬虫之后，群里斗图就没输过

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图，方便离线观看。爬虫用的是Python3.3开发的，主要用到了urllib、request和BeautifulSoup模块。

一.urllib模块

提供了从万维网中获取数据的高层接口，当我们用urlopen()打开一个URL时，就相当于我们用Python内建的open()打开一个文件。但不同的是，前者接收一个URL作为参数，并且没有办法对打开的文件流进行seek操作（从底层的角度看，因为实际上操作的是socket，所以理所当然的没办法进行seek操作），而后者接收的是一个本地文件名。

二.Python的BeautifulSoup模块（可以帮助你实现HTML和XML的解析。）

先说一下，一般写网页爬虫，即抓取网页的html源码等内容，然后分析，提取相对应的内容。

这种分析html内容的工作，如果只是普通的正则表达式re模块去一点点匹配的话，对于内容简单点的网页分析，还是基本够用。

但是对于工作量很大，要解析内容很繁杂的html，那么用re模块，就会发现无法实现，或很难实现。

而用beautifulsoup模块去帮你实现分析html源码的工作的话，你就会发现，事情变得如此简单，极大地提高了分析html源码的效率。

注：BeautifulSoup是第三方库，我使用的是bs4。urllib2在python3中被分配到了urllib.request中，文档中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.

爬虫源码如下：

# -*- coding: utf-8 -*-
 
import urllib.request
import bs4,os
 
page_sum = 1 #设置下载页数
 
path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
 os.mkdir(path) #创建文件夹
 
url = "http://baozoumanhua.com/gif/year" #url地址
headers = { #伪装浏览器
 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
 ' Chrome/32.0.1700.76 Safari/537.36'
}
 
for count in range(page_sum):
 req = urllib.request.Request(
 url = url+str(count+1),
 headers = headers
 )
 print(req.full_url)
 content = urllib.request.urlopen(req).read()
 
 soup = bs4.BeautifulSoup(content) # BeautifulSoup
 img_content = soup.findAll('img',attrs={'style':'width:460px'})
 
 url_list = [img['src'] for img in img_content] #列表推导 url
 title_list = [img['alt'] for img in img_content] #图片名称
 
 for i in range(url_list.__len__()) :
 imgurl = url_list[i]
 filename = path + os.sep +title_list[i] + ".gif"
 print(filename+":"+imgurl) #打印下载信息
 urllib.request.urlretrieve(imgurl,filename) #下载图片

福利来咯

想要学习Python的同学看过来，超多Python学习资源大合集，多到看不完的那种！今天免费分享！部分内容如下：

1.入门读物 2.进阶读物 3.Web框架 4.爬虫开发 5.图形图像 6.数据分析 7.机器学习 8.Python环境以及破解版编译器 9.爬虫实战教学视频

获取方式：Python/java技术学习交流群：（1036–6335–91）添加即可免费获取！

程序员的成长路程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自从我学了Python爬虫之后，群里斗图就没输过

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图，方便离线观看。爬虫用的是Python3.3开发的，主要用到了urllib、request和BeautifulSoup模块。一.urllib模块提供了从万维网中获取数据的高层接口，当我们用urlopen()打开一个URL时，就相当于我们用Python内建的open()打开一个文件。但不同的是，前者接收一个URL作为参数，并且没有办法对打开的文件流进...
复制链接

扫一扫

专栏目录