python爬虫（6）爬取糗事百科

最新推荐文章于 2021-03-01 13:08:29 发布

枫奇

最新推荐文章于 2021-03-01 13:08:29 发布

阅读量1w

点赞数 1

分类专栏： python爬虫 python爬虫专题文章标签：糗事百科爬虫 python

本文链接：https://blog.csdn.net/qiqiyingse/article/details/60583129

版权

最近学习一段时间Python了，网上找个项目练练手，网上很多写爬取糗事百科段子的例子，所以就拿过来试一试

之前看到的例子，直接down下来运行，结果好多错误，需要自己调试，但是总体思路是没错的，今天就从头到尾再次实验一下。

1.流程分析

糗事百科的页面是这个样子的

也就是说，在主页面，每一个段子是由图片，文字，组成，对于我们的爬取任务来说，既得处理文字，还要处理图片，太麻烦了，我们先来一个简单的

就只获取文字，不处理图片内容了。

因此，我们爬取页面的入口是这个： http://www.qiushibaike.com/text/

这个页面的段子，只有文字，因此就会减少我们一部分工作量。

那么定好了我们将要爬取的目标，接下里，就分析一下，我们在这个网页中需要获得什么内容。

首先，每个段子的内容是我们需要获取的，那有了内容，我们还想知道是谁发布它的，也就是作者，其次呢，有多少人点赞，多少人评论呢，这也是我们想获取的。

基本需求有了，然后呢，我们想的不只是能够获取一页的内容，获取的内容应该是连续的，看完第一页，还想看第二页，因此也需要连续获取页面内容

那总体思路如下：

1.段子作者

2.段子内容

获取主页内容——> 3.点赞人数——> 当前页面获取完毕接着下一页。

4.评论人数

好了，总体思路有了，接下来就实践吧

2.获取起始页面

直接使用 urllib2 库来获取页面内容

#!/usr/bin/python
#coding:utf-8

import urllib2

def getPages():
	url="http://www.qiushibaike.com/text/"
	requests=urllib2.urlopen(url).read().decode('utf-8')
	print requests
getPages()

这样简单的两句话，应该就能得到了起始页面的内容，接着我们就能继续分析了

但是，问题来了，这样执行并不成功，它报错如下：

Traceback (most recent call last):
  File "06.qiushibaike_lianxi (复件).py", line 18, in <module>
    getPages()
  File "06.qiushibaike_lianxi (复件).py", line 15, in getPages
    requests=urllib2.urlopen(url).read().decode('utf-8')
  File "/usr/lib/python2.7/urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 404, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 422, in _open
    '_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1214, in http_open
    return self