自己python 爬虫入门的小坑

1.文件扩展名

啊!一般人都不会犯得错误啊~ 偏偏被我犯了

本地自建的一个HTNL文件
本地自建的一个HTNL文件
请一定记得勾选此选项,不然文件就会成上面那个样子(PS:自己真不愧小白的名号!)。当你输入文件路径时很容易就会忘记扩展名,从而会报路径或文件找不到的错误
这里写图片描述

2.运行报错!

下面是一丢丢源代码

with open(r"H:\text\homework.html", 'r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    print(Soup)

运行后的结果就是这样了…..(PS:我也很无奈)
这里写图片描述
我自己上网搜了一下解决方案,是说文件打开时的编码有问题
大致是一下这么几种方案:
(1)打开文件时设置编码格式,最常见的就是gbk和utf-8

 with open(r"H:\text\homework.html", encoding='gbk') as wb_data:

(2)如果仍然进行报错,那文件中应该出现了一些字符超出了编码范围,所以更大的编码范围是gb18030

with open(r"H:\text\homework.html", encoding='gb18030') as wb_data:

(3)天啊!如果还是不行,那你忽略掉吧!当然不是没有缺点的,会出现乱码

with open(r"H:\text\homework.html",encoding='gb18030',errors='ignore') as wb_data:

就是这样子咯
这里写图片描述

3.求助

我打开源文件看了一眼,发现出现编码问题的就是注释这一部分
这里写图片描述
我试了上面的所有方法,仍然提示编码错误或者是出现乱码,迫于无奈,小白的我把那些注释全部删掉后可以正常的跑出来了~

嘤嘤嘤,哪位大神知道怎么解决的话求解答啊啊啊啊啊啊啊

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值