python爬虫(6)爬取糗事百科

最近学习一段时间Python了,网上找个项目练练手,网上很多写爬取糗事百科段子的例子, 所以就拿过来试一试

之前看到的例子, 直接down下来运行,结果好多错误,需要自己调试, 但是总体思路是没错的, 今天就从头到尾再次实验一下。


1.流程分析

糗事百科的页面是这个样子的


也就是说,在主页面,每一个段子是由 图片,文字,组成,对于我们的爬取任务来说, 既得处理文字,还要处理图片,太麻烦了, 我们先来一个简单的

就只获取文字,不处理图片内容了。

因此, 我们爬取页面的入口是这个: http://www.qiushibaike.com/text/  

这个页面的段子,只有文字,因此就会减少我们一部分工作量。

那么定好了我们将要爬取的目标,接下里,就分析一下,我们在这个网页中需要获得什么内容。

首先, 每个段子的内容是我们需要获取的,那有了内容,我们还想知道是谁发布它的, 也就是作者, 其次呢,有多少人点赞,多少人评论呢,这也是我们想获取的。

基本需求有了,然后呢,我们想的不只是能够获取一页的内容,获取的内容应该是连续的, 看完第一页,还想看第二页,因此也需要连续获取页面内容

那总体思路如下:


1.段子作者

2.段子内容

获取主页内容——> 3.点赞人数——> 当前页面获取完毕接着下一页。

4.评论人数

好了,总体思路有了,接下来就实践吧

2.获取起始页面

直接使用 urllib2 库来获取页面内容

#!/usr/bin/python
#coding:utf-8

import urllib2

def getPages():
	url="http://www.qiushibaike.com/text/"
	requests=urllib2.urlopen(url).read().decode('utf-8')
	print requests
getPages()

这样简单的两句话,应该就能得到了起始页面的内容,接着我们就能继续分析了

但是,问题来了, 这样执行并不成功,它报错如下:

Traceback (most recent call last):
  File "06.qiushibaike_lianxi (复件).py", line 18, in <module>
    getPages()
  File "06.qiushibaike_lianxi (复件).py", line 15, in getPages
    requests=urllib2.urlopen(url).read().decode('utf-8')
  File "/usr/lib/python2.7/urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 404, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 422, in _open
    '_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1214, in http_open
    return self
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值