使用python 编写 抓取内涵段子动态图的简单爬虫

本文介绍了使用Python编写抓取内涵段子动态图的爬虫过程,包括分析网页结构、正则表达式抓取URL、下载图片,并探讨了如何通过模拟点击“加载更多”获取更多数据。
摘要由CSDN通过智能技术生成

前段时间在浏览知乎的时候发现了一个关于python编写爬虫的帖子,下面是帖子的链接            www.zhihu.com/question/20899988

所以就想到了使用python也来试试爬取一些东西,本打算是根据关键词爬取百度图片的图片并下载,但是过程中遇到了阻碍,暂时停止了。然后去内涵段子的页面结构发现比较简

单一点,然后就实现了一个下图爬虫。


我编写这个程序时是参考的知乎里面帖子中的这个博主的相关博客                blog.csdn.net/pleasecallmewhy/article/details/8929576


编写这个程序主要分为下面的几个步骤:

1.分析内涵社区的页面结构

2.使用正则表达式找出待下载的url

3.下载这些图片


首先是第一步,这也是比较关键的一步,如果页面分析的不正确,那么后面的步骤也就无法下手了。

1.打开内涵段子的囧图页面                        http://neihanshequ.com/pic/

我们会看到下面的页面



在这个页面下就有我们想要的一些搞笑图片,但是我们首先需要的就是获得这个这个页面的html文件,这里我用到了python的urllib这个库,代码如下

def get_html(url):
    print "---------------now get html from url :" + url + "----------"

    send_headers = {
     'Host':'neihanshequ.com',
     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/20100101 Firefox/37.0',
     'Cookie':"pksrqup=1; csrftoken=237f4451075fe45cef3a4f5449f70658; tt_webid=3379513254; uuid=\"w:33266c46f0cc4fa6944c073b1b1bccea\"",
     'Connection':'keep-alive'
    }
    
    req = urllib2.Request(url ,headers=send_headers)  
    try:  
      
        response = urllib2.urlopen(req ,timeout = 100)  
        html = response.read()
        return html
    except urllib2.HTTPError, e:  
      
        print 'The server couldn\'t fulfill the request.'  
      
        print 'Error code: ', e.code  
      
    except urllib2.URLError, e:  
      
        print 'We failed to reach a server.'  
      
        print 'Reason: ', e.reason  
      
    else:  
        print 'No exception was raised.'


需要使用urllib 模拟发送的信息使用火狐的Firebug插件就可以看到,然后复制头信息出来,填到上面的header里面去就可以了。这里面的Cooiker需要添加,不添加会获取不到html文件,具体的urlib的使用介绍参见上面那位博主的博客,讲的很清楚。

现在html文件是获取到了,我们来观察一下这个文件,这个html文件结构还是比较清晰的。

每一个帖子都是由一个div组成,然后对于标题,图片和评论又各是一个div

在class = content-wrapper的div里面我们找到了这句话


这个data-text 就是囧图的配字,data-pic就是囧图的地址,那么我们的工作来了,就是获取这里面所有的data-pic和data-text(之后可以作为图片的名称)

解析这个html中的所有这两个字段,需要用到python的正则表达式,我们这里用到的非常简单,我是模仿得到的,具体的re教程去上面的博主那也可以获得

下面是我的re解析代码


这样就可以根据我刚才获得html文件解析出来所有的图片的地址了,然后下面就可以下载了,下载使用到了urllib相关的函数




-----------------截止上面你就可以下载几十张图片了

为什么只是几十张图片呢?


原因是我们刚才获取的只是首页面的html文件,那么更多的html文件怎么获得呢?


我们注意到在页面的下端有一个加载更多的按钮吧,点击它之后就可以获得图片了。




同样我们使用firebug 来抓一下包。


</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值