使用python 编写抓取内涵段子动态图的简单爬虫

最新推荐文章于 2021-04-13 20:41:09 发布

小菜鸟bird

最新推荐文章于 2021-04-13 20:41:09 发布

阅读量4k

点赞数 1

分类专栏： python 文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/oqqfengniao123456789/article/details/45226791

版权

本文介绍了使用Python编写抓取内涵段子动态图的爬虫过程，包括分析网页结构、正则表达式抓取URL、下载图片，并探讨了如何通过模拟点击“加载更多”获取更多数据。

摘要由CSDN通过智能技术生成

前段时间在浏览知乎的时候发现了一个关于python编写爬虫的帖子，下面是帖子的链接 www.zhihu.com/question/20899988

所以就想到了使用python也来试试爬取一些东西，本打算是根据关键词爬取百度图片的图片并下载，但是过程中遇到了阻碍，暂时停止了。然后去内涵段子的页面结构发现比较简

单一点，然后就实现了一个下图爬虫。

我编写这个程序时是参考的知乎里面帖子中的这个博主的相关博客 blog.csdn.net/pleasecallmewhy/article/details/8929576

编写这个程序主要分为下面的几个步骤：

1.分析内涵社区的页面结构

2.使用正则表达式找出待下载的url

3.下载这些图片

首先是第一步，这也是比较关键的一步，如果页面分析的不正确，那么后面的步骤也就无法下手了。

1.打开内涵段子的囧图页面 http://neihanshequ.com/pic/

我们会看到下面的页面

在这个页面下就有我们想要的一些搞笑图片，但是我们首先需要的就是获得这个这个页面的html文件，这里我用到了python的urllib这个库，代码如下

def get_html(url):
    print "---------------now get html from url :" + url + "----------"

    send_headers = {
     'Host':'neihanshequ.com',
     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/20100101 Firefox/37.0',
     'Cookie':"pksrqup=1; csrftoken=237f4451075fe45cef3a4f5449f70658; tt_webid=3379513254; uuid=\"w:33266c46f0cc4fa6944c073b1b1bccea\"",
     'Connection':'keep-alive'
    }
    
    req = urllib2.Request(url ,headers=send_headers)  
    try:  
      
        response = urllib2.urlopen(req ,timeout = 100)  
        html = response.read()
        return html
    except urllib2.HTTPError, e:  
      
        print 'The server couldn\'t fulfill the request.'  
      
        print 'Error code: ', e.code  
      
    except urllib2.URLError, e:  
      
        print 'We failed to reach a server.'  
      
        print 'Reason: ', e.reason  
      
    else:  
        print 'No exception was raised.'

需要使用urllib 模拟发送的信息使用火狐的Firebug插件就可以看到，然后复制头信息出来，填到上面的header里面去就可以了。这里面的Cooiker需要添加，不添加会获取不到html文件，具体的urlib的使用介绍参见上面那位博主的博客，讲的很清楚。

现在html文件是获取到了，我们来观察一下这个文件，这个html文件结构还是比较清晰的。

每一个帖子都是由一个div组成，然后对于标题，图片和评论又各是一个div

在class = content-wrapper的div里面我们找到了这句话

这个data-text 就是囧图的配字，data-pic就是囧图的地址，那么我们的工作来了，就是获取这里面所有的data-pic和data-text(之后可以作为图片的名称)

解析这个html中的所有这两个字段，需要用到python的正则表达式，我们这里用到的非常简单，我是模仿得到的，具体的re教程去上面的博主那也可以获得

下面是我的re解析代码

这样就可以根据我刚才获得html文件解析出来所有的图片的地址了，然后下面就可以下载了，下载使用到了urllib相关的函数

-----------------截止上面你就可以下载几十张图片了

为什么只是几十张图片呢？

原因是我们刚才获取的只是首页面的html文件，那么更多的html文件怎么获得呢？

我们注意到在页面的下端有一个加载更多的按钮吧，点击它之后就可以获得图片了。