python爬虫小项目：爬取糗事百科段子

置顶

funwj

于 2016-11-04 19:37:24 发布

阅读量2.6k

点赞数 4

文章标签： python 爬虫糗事百科

本文链接：https://blog.csdn.net/funj_/article/details/53038348

版权

本文介绍了使用Python3爬虫抓取糗事百科热门段子的实现过程，解决了在cmd环境下遇到的Unicode编码错误问题。通过修改代码开头的编码声明来适应Python3环境。文章提到了与Python2.x版本的区别，如urllib模块的变化、print函数的使用、输入输出方式及异常处理的调整。项目成功运行并展示了爬取结果。

摘要由CSDN通过智能技术生成

“写完这篇文章有一两个月了，中间忙着期末考试等各种事情就没去管它，刚运行了一下代码发现出现了编码错误，在爬取完第一页后，出现以下错误：

UnicodeEncodeError: 'gbk' codec can't encode character '\u22ef' in position 93: illegal multibyte sequence。

在查询了一些资料后，借鉴博客园中相关说明后，在代码开头加上如下声明：

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码

因为是我是在cmd下运行，所以需要改变标准输出的默认编码，具体说明请大家参照博客园中相关说明”

更新时间：2017/1/12

====================================================================================================================================

最低0.47元/天解锁文章

funwj

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
python爬虫小项目：爬取糗事百科段子

python爬虫一直是我想要入手的方向，通过对静觅崔庆才的个人博客的学习，完成了一些小项目。在此对其及其博客表示感谢，也推荐大家学习。本文完成的是抓取糗事百科热门段子中python爬虫代码的python 3.x版本,希望给学习过相同博文且想用python3.x完成的人带来一点启发。具体步骤请参照抓取糗事百科热门段子，本文仅是成品。本文的正则表达式目前可用。该项目中用到的pyth
复制链接

扫一扫