爬虫--糗百

想必大家在搜爬虫教程的时候都看到这一篇爬糗百教程
http://python.jobbole.com/81351/

这个教程很赞,但这是15年的,里面有些地方要调整,照搬的话可能会掉坑里去,比如我

先贴一个我改编后的代码
这里写图片描述
说一下坑:

  1. 13行中用到了decode和encode.原因是按照教程代码的话,中文会显示乱码,编码这个问题是老大难了,一直都没有细细地去研究。总之是先解码为utf-8,然后再编码成gbk,这里有个ignore参数,一定要加。因为抓取的页面中有不能编码成gbk的内容,我们就忽略掉
  2. 14行的正则表达式匹配模式,这个要自己去学正则表达式,重新匹配。原教程匹配的内容跟他想要的差距甚大。我这里是抓取了作者,内容,好笑值,评论数这四项,并进行了格式化优雅显示

下面是将代码做成类
这里写图片描述
这里写图片描述
这里写图片描述
然后运行代码

qiubai = QSBK()
qiubai.start()

就行了,效果图如下

这里写图片描述

注意,一开始我以为是1页1个段子,看到好多第1页觉得哪里出问题了。后来才醒悟,1页有好多段子,不只一个(衰)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值