python爬虫问题01--‘gbk‘，utf-8

最新推荐文章于 2022-10-31 17:25:37 发布

岳一岁

最新推荐文章于 2022-10-31 17:25:37 发布

阅读量698

点赞数

分类专栏：笔记文章标签：爬虫 html 前端 python

本文链接：https://blog.csdn.net/m0_58658712/article/details/121890941

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

"在Python爬虫过程中遇到编码问题，保存网页内容时出现`UnicodeEncodeError`，原因是Windows默认以GBK编码打开文件。解决方案是在`with open()`语句中添加`encoding="utf-8"`参数，确保以UTF-8编码写入文件，从而避免编码冲突。"

摘要由CSDN通过智能技术生成

1. 问题

被爬虫的网页是"UTF-8"格式的编码，但是我在保存内容时

from urllib.request import urlopen

def get_url():
    url = 'https://www.hao123.com/'
    resp = urlopen(url)
    with open('baidu.html', mode='w') as file:
        content = resp.read()
        # print(f)
        # file.write(f)
        file.write(content.decode("UTF-8"))
        print('file is done!!')


if __name__ == '__main__':
    get_url()

出现了下面的错误

UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position 252532: illegal multibyte sequence

2. 问题及解决方案

原因是windows默认打开文件的时候采用的是‘gbk'编码，这里我们修改其编码的方式为’UTF-8‘即可

with open('baidu.html', mode='w', encoding="utf-8") as file:

在打开的这行函数加了encoding="utf-8"

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

岳一岁

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫数据中文显示为乱码解决方式（gbk导致）

littledive的博客

12-28

2761

爬虫乱码是一个很常见的问题，给大家分享一个我遇到的案例及解决方案爬取对象为电影票房（网址：target='http://www.piaofang.biz/'）电影名显示为乱码此时查看网页源代码，发现显示为gbk 我们需要使用requests库的方法查看编码类型可以看到编码为ISO-8859-1，然后只需要在对应位置上encode(ISO-8859-1)，中文乱码就可以解决 ...

Python爬虫遇到的问题（一）---关于utf-8,gbk

FCinPJ的博客

09-27

3573

Python爬虫遇到的问题（一）—关于utf-8,gbk 遇到的问题最初，在爬取浙江工商大学信息网时，使用了以下代码： from bs4 import BeautifulSoup import urllib.request def get_html(url): page = urllib.request.urlopen(url) htmlcode = page.read() ...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫解决gbk乱码问题

weixin_30315723的博客

03-15

459

今天尝试了下爬虫，爬取一本小说，忘语的凡人修仙仙界篇，当然这样不好，大家要支持正版。　　爬取过程中是老套路，先获取网页源代码　　 # -*- coding:UTF-8 -*- from bs4 import BeautifulSoup import requests if __name__ =='__main__': url='http://www.biquge.co...

python爬虫脚本ie=utf-8_Python爬取网页编码问题

weixin_39714565的博客

12-01

630

最近开始复习Python爬虫，使用了VS Code作为编辑器，配置了Task输出的时候，发现VS Code的Output对于中文是乱码，而上网查到的资料是Output默认输出UTF-8格式，而且程序在Windows控制台运行中文正常输出。这个问题也就没有不了了之。后来又开始爬取网页，以baidu为例，但是运行data.decode("UTF-8")的时候，出现下面的错误：line 19, in d...

python爬虫脚本ie=utf-8_菜鸟Python网络爬虫网页编码utf-8十六进制问题不解

weixin_30191159的博客

02-04

305

学习python网络爬虫，爬豆瓣网(网页编码我看了，是utf-8)的时候，出现爬下来的是十六进制对python内部的编码感觉有点凌乱啊...我之后发现了问题的所在：当我创建一个s=["逢坂大河","新垣结衣"]print s得到的是ascii编码["ascii值","ascci值"]我要输出其中的内容，只能用print s[0]，或者for i in s: print i 么？coding:utf...

Python爬取网页Utf-8解码错误及gzip压缩问题的解决办法

xiaoming0018的博客

05-31

955

header是否存在 'Accept-Encoding':' gzip, deflate', 2）的解决办法为： import requests import gzip url="http://news.sina.com.cn/c/nd/2017-02-05/doc-ifyafcyw0237672.shtml" req = requests.get(url) req.encoding= 'utf-8'

python爬虫python-strings.rar

最新发布

06-22

Python提供`encode()`和`decode()`方法进行编码转换，例如`str.encode('utf-8')`和`bytes.decode('gbk')`。六、字符串与JSON 在爬虫中，通常会遇到JSON格式的数据，Python的`json`模块提供了方便的接口进行字符串...

Python 处理GBK编码转UTF-8读写乱码问题

xfyangle的博客

03-09

3万+

今日写了个爬虫，爬取前程无忧的招聘信息老套路，首先获取网页源代码 #-*- coding:utf-8 -*- import requests url = 'http://search.51job.com/jobsearch/search_result.php?' page_req = requests.get(url) page = page_req.text.encode('utf-8

Python爬虫-----疾病信息爬取

LIVEAD的博客

08-16

4005

一、爬取内容及网站 1.本次爬取的网站是99健康网中的疾病信息，包括疾病名称，所属科室及体态特征信息 2.网站中具体疾病的搜索路径有两种方式：按科室搜索、按部位搜索（1）按科室搜索：科室–小科室–所含疾病（2）按部位搜索：部位—所含疾病可以看出，按部位搜索的路径更短些，因此本次使用按部位搜索的过程，进行疾病信息的爬取。 3.整体爬取思路：爬取所含部位----按部位爬取每一部位包含的疾病名称...

python爬虫入门实战---------一周天气预报爬取_Python爬虫实例扒取2345天气预报

weixin_39609887的博客

11-26

641

寒假里学习了一下Python爬虫，使用最简单的方法扒取需要的天气数据，对，没听错，最简单的方法。甚至没有一个函数封装。。网址：http://tianqi.2345.com/wea_history/53892.htm火狐中右键查看网页源代码，没有发现天气数据，因此推断网页采用的json格式数据。右击->查看元素->网络->JS，找到了位置用Python爬虫下载为json格式数据存储下来，代码如下：#...

爬虫爬取的网页乱码 response.encoding = "utf-8" 来解决

abcdasdff的博客

08-25

2万+

使用requests爬数据的时候，发现打印或者保存到文件中的中文显示为Unicode码(其实我也不知道是什么码,总之乱码)。爬取某网 response= requests.get(“http://www.xxxxx.com/“) 我们都知道response有 text 和 content 这两个property, 它们都是指响应内容，但是又有区别。我们从doc中可以看到： text的d...

python爬取网页：‘gbk/utf-8‘ codec can‘t decode byte xx in position xx : illegal multibyte sequence的问题

weixin_51143375的博客

05-04

1099

爬取网址编码错误问题

Scrapy爬虫,Python2将Unicode编码装换成UTF-8编码解决方法之一

路人甲的博客

04-20

7055

在爬取后的数据加上.encode('utf-8'),就可以转换了.

爬虫网页乱码gbk转utf-8,utf-8转gbk如濂ュ厠鏂

resphina的博客

10-31

387

爬虫网页乱码gbk转utf-8,utf-8转gbk如濂ュ厠鏂

Python UnicodeEncodeError解决方法

Python全栈系列

08-04

2784

🐚 作者: 阿伟💂 个人主页:🐋 希望大家多多支持😘一起进步呀！

python常见错误

weixin_38516136的博客

08-08

1104

编码or解码问题写文件 UnicodeEncodeError: 'gbk' codec can't encode character '\u2764' in position 10: illegal multibyte sequence 这种错误经常发生在windows操作系统下，原因是当你使用如下代码写文件时，会创建一个新文件，而新文件的编码与你操作系统有关，所以更改默认编码方式即可 ...

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character

测试入坑之路

01-18

1016

python执行代码时报错： UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position 330: illegal multibyte sequence 解决方案：在windows中，新建的文本文件的默认编码是gbk，所以我们只要将创建文件时候写成： # 添加 encoding=‘utf-8’ 即可 with open(‘test.html’, ‘w’, encoding=‘utf-8’)as f: f.wr

UnicodeEncodeError: 'gbk' codec can't encode character ...