关于python爬虫中报错以及爬下来的数据中文乱码

最新推荐文章于 2022-07-05 23:15:36 发布

Kidd_Pan

最新推荐文章于 2022-07-05 23:15:36 发布

阅读量346

点赞数

文章标签： pycharm 乱码 python

本文链接：https://blog.csdn.net/Kidd_Pan/article/details/107590660

版权

@爬虫报错以及爬下来的html中文乱码

爬虫报错和爬下来的数据中文字符乱码

content.decode报错

最近在学习python爬虫时，用requests.get获取的数据进行decode()时发现程序会报错，因为python默认以utf-8进行decode，报错提示utf-8无法decode，因此用decode(“utf-8”)同样会报错。

换成GBK进行decode

在网上查询了一下说指定用GBK进行decode就可以了，因此代码换成了decode(“GBK”)，结果是成功爬数据了，但是打开爬下来的html发现里面的内容英文没有问题，但是中文成了一大堆莫名其妙的东西。

问题的解决

最终去chrome里检查了一下Elements，发现charset=UTF-8，就试了下代码写成
content.decode(“UTF-8”)，结果爬下来的数据就正常了，中文也没能正确显示了，就是这么的莫名其妙？？？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kidd_Pan

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

解决python爬虫中文乱码问题

2401_83704218的博客

04-16

312

（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。\x9b\x9eé?requests.get(url).content.decode(‘gbk’,‘ignore’).encoding(‘utf-8’,‘ignore’) #假设源码是gbk，则需要先解码在编码成utf-8。也就是说text是解码完的数据，调用req.text(）就不需要解码了，问题经常出现解码中的类型码是否正确，这个下面在说，先明白text（）和content（）的区别。

python爬取内容乱码_【提问】PYTHON 爬取下来的中文数据显示乱码

weixin_29086203的博客

02-21

156

该楼层疑似违规已被系统折叠隐藏此楼查看此楼源码：#!/usr/bin/env python# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass FH:def __init__(self):self.pageIndex = 1self.user_agent = 'Mozilla...

参与评论您还未登录，请先登录后发表或查看评论

【Python】python3 正则爬取网页输出中文乱码解决

baijiaozhan8157的博客

12-03

222

【Python】python3 正则爬取网页输出中文乱码解决爬取网页时候print输出的时候有中文输出乱码例如： \\xe4\\xb8\\xad\\xe5\\x8d\\x8e\\xe4\\xb9\\xa6\\xe5\\xb1\\x80 #爬取ht...

python类型转换字符_python爬虫中一个str类型的unicode字符串转成中文的问题

weixin_39966740的博客

11-24

317

本文主要介绍部分爬虫在遇到%u5317%u4eac%u70e4%u9e2d这种类似unicode编码的str类型数据时，无法直接使用decode('unicode-escape')方法来转成中文的时候，一个转码的解决方案，以及这个方案的思路!今天在爬一个网站的时候，遇到了一个网站，它的一些数据是通过ajax加载进来的一段json，它的value部分的内容是像下面这样子的：%20%20%20%20%...

python爬取小说出现乱码_【提问】PYTHON 爬取下来的中文数据显示乱码

weixin_39875754的博客

11-25

150

python爬虫常见报错_Python爬虫总结——常见的报错、问题及解决方案

weixin_39654245的博客

11-28

3016

在爬虫开发时，我们时常会遇到各种BUG各种问题，下面是我初步汇总的一些报错和解决方案。在以后的学习中，如果遇到其他问题，我也会在这里进行更新。各位如有什么补充，欢迎评论区留言~~~问题：IP被封，或者因访问频率太高被拦截？？？解决方案之一：使用代理IP即可。问题：正确使用XPath之后并没有输出？？？解决方案之一：XPath只能提取未注释的代码，改用正则表达式即可。问题：容易被反爬搞死？？？解决方...

python爬虫表格数据中文乱码,python爬取网站遇到中文乱码的解决方案

weixin_28278377的博客

03-26

973

乱码问题1：由于Requests模块带来的乱码。当HTTP header有指定字符集的时候，会采用指定的字符集。当HTTP header不存在明确指定的字符集，Requests会去猜测编码方式。但是这时候不能保证一定会解码正确，可能你get下来的文档都是这样的：解决办法比较简单，加上这么一句话就行了：get对象.encoding = 'utf-8'new_url = 'https://baike....

python爬虫设计实验

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

07-05

3142

本实验任务主要基于ubuntu完成python对网页的爬取，完成对所需数据的采集。通过完成本实验任务，要求学生掌握python语言对网页数据的采集技能，为以后从事数据采集工程师奠定基础。完成实验实例，python语言爬取小说名字和小说介绍。Ubuntu、Python2.7.12、Tomcat打开获取数据的页面，进行对数据检索分析，找到要获取的数据，构建爬取思路。通过urllib2对页面进行请求，通过BeautifulSoup对请求的页面进行解析。对解析完的数据进行选取，获取重要数据。♥ 知

Python爬虫获取tieba公开数据丨Python基础实战系列(3)

阿星的Python技术分享博客

05-13

1263

基础爬虫实战丨继续跟阿星来做一个Python爬虫实战案例。在学Python爬虫？那真得进来看看~

python爬虫和数据可视化论文_Python爬虫之小说信息爬取与数据可视化分析

weixin_32515577的博客

01-12

3710

一、小说数据的获取获取的数据为起点中文网的小说推荐周榜的所有小说信息。源代码对所有想要获取的数据都有注释。http://dxb.myzx.cn/grandmal/#-*-coding:utf-8-*-"""CreatedonMonJan422:59:112021"""importrequestsfrombs4importBeautifulSoupimportos.p...

解决pycharm的爬虫乱码问题（初步了解各种编码格式）

bajiao1005的博客

01-17

897

Ascii码（American Standard Code for Information Interchange，美国信息互换标准代码）：最初计算机只在美国使用时，只用8位的字节来组合出256（2的8次方）种不同的状态，把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，拓展字符集：世界各地的都开始使用计算机，一直把序号编到了最后一个状态25...

网络爬虫遇见的报错及处理方法

Dove's Blog

11-30

1000

0.环境介绍 1. pip install psutil出错-You are using pip version 10.0.1, however version 18.0 is available. 2. 使用BeautifulSoup的时候提示以下错误：bs4.FeatureNotFound: Couldn't find a tree builder with the features yo...

Python3爬虫之中文乱码问题分析与解决方法

1stPeak's Blog

06-15

7093

前言分析解决方法前言：今天简单爬取一个网页的源代码时，发现出现了乱码 python代码： import requests req = requests.get("http://www.ccit.js.cn") req_text = req.text print(req_text) 部分截图：分析：出现这样的情况是什么原因呢？（1）我们先来测试一下python3...

pycharm爬虫打印网页出现中文乱码问题

weixin_43654212的博客

10-25

1815

pycharm爬虫打印网页出现中文乱码问题今天爬了一天的微博，到现在还没有成功。期间也出现了打印页面中文显示乱码问题。 html=session.get(url) print(html.text) 如果直接打印的话就会出现这样的结果 <p class="label" id = "uctext">Ê¹ÓÃ<span id = "ucname"></span>...

Python解决抓取内容乱码问题（decode和encode解码）