python数据提取bs4

最新推荐文章于 2023-01-02 12:13:40 发布

Click-N

最新推荐文章于 2023-01-02 12:13:40 发布

阅读量376

点赞数

分类专栏： python爬虫数据分析文章标签： python pycharm 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ka_kaen/article/details/123033951

版权

python爬虫同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

使用bs4提取本地的html文件时，发生编码错误。如下

#-*- coding = utf-8 -*-
#@Time : 2022/2/20 17:46
#@File : bs4数据解析.py
#@software : PyCharm

#bs4数据解析
#数据解析原理 1.标签定位，2.提取标签，标签属性中存储的数据值

    #bs4 1.标签定位 1.实例化一个BeautifulSoup对象，并将页面源码加载到该对象中
        #2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
        #环境安装：install bs4 pip install lxml

from bs4 import BeautifulSoup
#对象实例化
#1.将本地的HTML文档中的数据加载到该对象中
#将本地html加载带该对象中
fp =open('./sogou.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
fp.close()
print(soup)
#2.将互联网上获取的页面源码加载到该对象中

发生报错UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 7819: illegal multibyte

解决办法：

import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码
fp =open('./sogou.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
fp.close()
print(soup.decode('utf-8'))

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据提取bs4

使用bs4提取本地的html文件时，发生编码错误。如下#-*- coding = utf-8 -*-#@Time : 2022/2/20 17:46#@File : bs4数据解析.py#@software : PyCharm#bs4数据解析#数据解析原理 1.标签定位，2.提取标签，标签属性中存储的数据值 #bs4 1.标签定位 1.实例化一个BeautifulSoup对象，并将页面源码加载到该对象中 #2.通过调用BeautifulSoup对象中相关的属性或者
复制链接

扫一扫

专栏目录

Click-N CSDN认证博客专家 CSDN认证企业博客

码龄5年

22: 原创

76万+: 周排名

6万+: 总排名

3万+: 访问

: 等级

282: 积分

58: 粉丝

54: 获赞

15: 评论

144: 收藏

私信

关注

热门文章

分类专栏

最新评论

JVM学习第一章
CSDN-Ada助手: 恭喜您写了第20篇博客《JVM学习第一章》，持续创作是非常了不起的成就！在这篇博客中，您对JVM的学习展现出了认真和努力，希望您能继续保持这样的学习态度。接下来，建议您可以深入研究JVM的原理和机制，探究更多有关Java虚拟机的知识，相信您的学识会更上一层楼。期待您的下一篇精彩文章，加油！
Maven的作用
CSDN-Ada助手: 恭喜您发布了第19篇博客《Maven的作用》，不断分享知识和经验是非常值得肯定的。在接下来的创作中，建议您可以深入探讨Maven在实际项目中的应用场景，结合具体案例进行分析，让读者更加深入地了解Maven的作用和优势。期待您的更多精彩内容，加油！
ArrayList数组动态扩容的源码分析
CSDN-Ada助手: 恭喜用户撰写了关于ArrayList数组动态扩容源码分析的精彩博客！阅读后收获颇丰，感谢分享。或许接下来可以考虑探讨其他集合类的源码实现，比如LinkedList或HashMap等，相信会给读者带来更多启发。期待您更多的优质创作！愿您在写作的道路上不断进步，勇往直前！
Vector的底层源码分析
CSDN-Ada助手: 恭喜用户撰写了第17篇博客《Vector的底层源码分析》，深入研究源码是一个很不容易的过程，能够分享自己的心得体会，对大家都是很有帮助的。希望用户可以继续保持创作的热情，不断积累经验，也可以考虑结合实际项目经验，分享更多关于Vector应用场景和性能优化方面的内容，这样可以为更多的读者提供更实用的知识。期待用户更多的精彩文章！愿用户在创作的道路上越走越远！
LinkedList底层源码的学习分析
CSDN-Ada助手: 恭喜用户撰写了这篇关于LinkedList底层源码的学习分析的博客！通过深入研究源码，您不仅加深了对LinkedList的理解，也为读者提供了宝贵的学习资源。在接下来的创作中，或许可以考虑探讨其他数据结构或算法的源码实现，让读者对编程世界有更全面的了解。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。