问题：python3 使用beautifulSoup时，出错UnicodeDecodeError: 'gbk' codec …….

最新推荐文章于 2024-08-12 23:17:41 发布

cigo_2018

最新推荐文章于 2024-08-12 23:17:41 发布

阅读量1.6k

点赞数

分类专栏： Python笔记爬虫文章标签： python 爬虫

Python笔记同时被 2 个专栏收录

57 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

想将html文件转为纯文本，用Python3调用beautifulSoup

超简单的代码一直出错，用于打开本地文件：

from bs4 import BeautifulSoup
file = open('index.html')
soup = BeautifulSoup(file,'lxml')
print (soup)

出现下面的错误

UnicodeDecodeError : ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence

beautifulSoup不是自称可以解析各种编码格式的吗？为什么还会出现解析的问题？？？

搜了很多关于beautifulSoup的都没有解决，突然发现，如果把代码写成

from bs4 import BeautifulSoup
file = open('index.html')
str1 = file.read() # 错误出在这一行！！！
soup = BeautifulSoup(str1,'lxml')
print (soup)

原来如此！ 问题出在文件读取而非BeautifulSoup的解析上！！

好吧，查查为什么文件读取有问题，直接上正解，同样四行代码

from bs4 import BeautifulSoup
file = open('index.html','r',encoding='utf-16-le')
soup = BeautifulSoup(file,'lxml')
print (soup)

然后soup.get_text()得到标签中的文字

其它

如果文件中存在多种编码而且报错，可以采用下面这种方式忽略，没测试–

soup = BeautifulSoup(content.decode('utf-8','ignore'))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cigo_2018

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python beautiful soup库的用法

weixin_34127717的博客

03-09

3103

参考：http://cuiqingcai.com/1319.html Beautiful Soup 4.2.0 文档 1. Beautiful Soup 简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索...

Python3.x：BeautifulSoup()解决中文乱码问题

amberom的专栏

07-28

2396

问题：　　BeautifulSoup获取网页内容，中文显示乱码；解决方案：　　遇到情况也是比较奇葩，利用chardet获取网页编码，然后在BeautifulSoup构造器中传入from_encoding=参数，获取的还是一堆乱码；无奈之下，在网络上大搜索一通，结果还是没搞清楚原因，但是问题倒是找到了解决方案；在这里提供下，给遇到同样问题的码友：如果中文页面编码是gb2312，gbk，在BeautifulSoup构造器中传入from_encoding="gb18030"参数即可解决乱码

参与评论您还未登录，请先登录后发表或查看评论

beautifulsoup的简单使用

最新发布

qq_45726327的博客

08-12

1041

我们在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 **soup.select()，**返回类型是。如果属性字典中的键值对完全匹配一个标签的属性，则该标签会被返回。组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开。如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为。

python3 使用beautifulSoup时，出错UnicodeDecodeError: 'gbk' codec …….

不甜

05-09

1904

来源：https://www.cnblogs.com/fly2wind/p/6426319.html 问题：python3 使用beautifulSoup时，出错UnicodeDecodeError: ‘gbk’ codec ……. 想将html文件转为纯文本，用Python3调用beautifulSoup 简单的代码一直出错，用于打开本地文件 from bs4 import BeautifulS...

Python 爬虫学习笔记（七(3)）BeautifulSoup解析+实战

湫兮如风i的博客

03-18

1612

BeautifulSoup解析超详细讲解+实战，小白式笔记，包含语法、节点定位、获取节点信息等

超级详细的BeautifulSoup使用方法

zt772612939的博客

09-09

2万+

BeautifulSoup 的使用我们学习了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多标签都有 id 或 class 来对作区分，所以我们借助于它们的结构和属性来提取不也是可以的吗？所以，这一节我们就介绍一个强大的解析工具，叫做 BeautiSoup，它就是借助网页的结构和属性等特性来解析网页...

BeautifulSoup(file, 'html.parser') UnicodeDecodeError: 'gbk' codec can't decode byte 0xa2 in position 7828: illegal multibyte sequence

05-20

这个错误提示是因为在你的代码中使用了GBK编码去解码一个包含非法多字节序列的HTML文件。解决这个问题的方法有两种： 1. 指定正确的编码方式：通过查看HTML文件的编码方式，你可以使用正确的编码方式去解析它。比如...

如何安装pycrawlers显示UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 24: illegal multibyte sequence

04-11

安装pycrawlers时出现UnicodeDecodeError错误通常是由于编码问题引起的。解决这个问题的方法是设置正确的编码。首先，你可以尝试在安装pycrawlers之前设置Python的默认编码为UTF-8。可以在Python脚本的开头添加...

UnicodeDecodeError: 'gb2312' codec can't decode byte 0xe6 in position 112: illegal multibyte sequence

08-25

这个错误表示在使用'gb2312'编解码器时，无法解码在第112个位置上的字节0xe6，因为它是一个非法的多字节序列。这个错误通常发生在尝试解码不同字符集的文本时，而编解码器无法正确处理某些字节序列。例如，在处理...

Python之BeautifulSoup

BiPerler的专栏

06-03

713

BeautifulSoup是一个html解析器，其主要功能是将html解析成树的结构，关于具体的用法官网介绍（http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html）了很多，在这里不在赘述。在用BeautifulSoup解析html过程中遇到几个问题需要注意下： 1、解析html需要添加源文件字符集 ur

BeautifulSoup用法详解1

08-08

Beautiful Soup 的用法上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴

python 爬虫问题解决

scarlette唐从入门到放弃

07-24

564

1、爬取晋江网页（1）报错：UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start by... （2）原因：网站发包是gzip格式，因此解码会是乱码：headers['Accept-Encoding']="gzip （3）解决用gzip包解压传回来的网页正常 def askURL(url): head = { "User-Agent": "M..

UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence

热门推荐

qq_37422923的博客

05-12

4万+

在做文本词频统计的时候遇到的问题，弄了1个小时也没找到解决方法，在偶然的一次试一试，居然成功解决了这个问题。一般情况下是这样是可以直接没问题的：出现问题时：一般情况下解决方式（网上绝大部分）：但是出现这种情况：此时我们输入encoding='16' 问题就解决了。...

BeautifulSoup常用用法详解

qq_42733062的博客

07-12

1259

目录解析库基本使用格式化html获取标签获取属性获取内容嵌套选择获取子节点获取所有的子孙节点获取父节点获取所有的祖先节点获取兄弟节点标准选择器nameattrstextfindfind_parents() find_parentfind_next_siblings() find_next_sibling()find_previous_siblings() find_previous_sibling()find_all_next() find_next()find_all_previous() find_pr

BeautifulSoup的使用与入门

qq_46433748的博客

02-21

1782

它支持多种解析器，包括python标准库、lxml HTML解析器、lxml XML解析器、html5lib等。结合稳定性和速度，这里推荐使用lxml HTML解析器。如果lxml不能正确解析内容，这是可以使用html5lib。

UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xad in position 176:

Elroy1230的博客

03-09

298

事件抽取处理中文数据集时出现这个错误，因为默认编码方式是gbk，而中文文本是utf-8 原先： with open(sgm_file, 'r') as f: soup = BeautifulSoup(f.read(), features='html.parser') sgm_text = soup.text 所以当出现这个错误时修改代码： with open(sgm_file, 'r',encoding='utf-8') as f:

BeautifulSoup库使用方法

怕怕小虫子的博客

04-08

558

Beautiful Soup提供⼀些简单的、python式的函数⽤来处理导航、搜索、修改分析树等功能。它是⼀个⼯具箱，通过解析⽂档为⽤户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出⼀个完整的应⽤程序。Beautiful Soup⾃动将输⼊⽂档转换为Unicode编码，输出⽂档转换为utf-8编码。你不需要考虑编码⽅式，除⾮⽂档没有指定⼀个编码⽅式，这时，Beautiful Soup就不能⾃动识别编码⽅式了。然后，你仅仅需要说明⼀下原始编码⽅式就可以了。

Python入门：使用urllib和BeautifulSoup构建简易Web爬虫

"本文主要讲解了如何使用Python实现一个简单的Web爬虫，涉及Python的urllib和BeautifulSoup库，以及爬虫的基本工作流程和数据结构的构建。" Python实现简易Web爬虫涉及到的关键知识点包括： 1. **网络爬虫概念**：...