前段时间在浏览知乎的时候发现了一个关于python编写爬虫的帖子,下面是帖子的链接 www.zhihu.com/question/20899988
所以就想到了使用python也来试试爬取一些东西,本打算是根据关键词爬取百度图片的图片并下载,但是过程中遇到了阻碍,暂时停止了。然后去内涵段子的页面结构发现比较简
单一点,然后就实现了一个下图爬虫。
我编写这个程序时是参考的知乎里面帖子中的这个博主的相关博客 blog.csdn.net/pleasecallmewhy/article/details/8929576
编写这个程序主要分为下面的几个步骤:
1.分析内涵社区的页面结构
2.使用正则表达式找出待下载的url
3.下载这些图片
首先是第一步,这也是比较关键的一步,如果页面分析的不正确,那么后面的步骤也就无法下手了。
1.打开内涵段子的囧图页面 http://neihanshequ.com/pic/
我们会看到下面的页面
在这个页面下就有我们想要的一些搞笑图片,但是我们首先需要的就是获得这个这个页面的html文件,这里我用到了python的urllib这个库,代码如下
def get_html(url):
print "---------------now get html from url :" + url + "----------"
send_headers = {
'Host':'neihanshequ.com',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/20100101 Firefox/37.0',
'Cookie':"pksrqup=1; csrftoken=237f4451075fe45cef3a4f5449f70658; tt_webid=3379513254; uuid=\"w:33266c46f0cc4fa6944c073b1b1bccea\"",
'Connection':'keep-alive'
}
req = urllib2.Request(url ,headers=send_headers)
try:
response = urllib2.urlopen(req ,timeout = 100)
html = response.read()
return html
except urllib2.HTTPError, e:
print 'The server couldn\'t fulfill the request.'
print 'Error code: ', e.code
except urllib2.URLError, e:
print 'We failed to reach a server.'
print 'Reason: ', e.reason
else:
print 'No exception was raised.'
需要使用urllib 模拟发送的信息使用火狐的Firebug插件就可以看到,然后复制头信息出来,填到上面的header里面去就可以了。这里面的Cooiker需要添加,不添加会获取不到html文件,具体的urlib的使用介绍参见上面那位博主的博客,讲的很清楚。
现在html文件是获取到了,我们来观察一下这个文件,这个html文件结构还是比较清晰的。
每一个帖子都是由一个div组成,然后对于标题,图片和评论又各是一个div
在class = content-wrapper的div里面我们找到了这句话
这个data-text 就是囧图的配字,data-pic就是囧图的地址,那么我们的工作来了,就是获取这里面所有的data-pic和data-text(之后可以作为图片的名称)
解析这个html中的所有这两个字段,需要用到python的正则表达式,我们这里用到的非常简单,我是模仿得到的,具体的re教程去上面的博主那也可以获得
下面是我的re解析代码
这样就可以根据我刚才获得html文件解析出来所有的图片的地址了,然后下面就可以下载了,下载使用到了urllib相关的函数
-----------------截止上面你就可以下载几十张图片了
为什么只是几十张图片呢?
原因是我们刚才获取的只是首页面的html文件,那么更多的html文件怎么获得呢?
我们注意到在页面的下端有一个加载更多的按钮吧,点击它之后就可以获得图片了。
同样我们使用firebug 来抓一下包。
</