1爬虫百度首页 结果失败成空页 以及 为什么出乱码

跟着B站视频第一次学习爬虫 果不其然 失败 下面是我的代码

from urllib.request import urlopen
url = "https://www.baidu.com/index.php?tn=monline_3_dg"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8")as f:
    f.write(resp.read().decode("utf-8"))
print("over~")

我的失败mybaidu.html

<html>
<head>
	<script>
		location.replace(location.href.replace("https://","http://"));
	</script>
</head>
<body>
	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>

方法 方法 方法:

将 url 中的 https 改成 http  一切迎刃而解

补充  如果代码 withopen中这样写:

with open("mybaidu2.html", mode="w")as f:
    f.write(resp.read().decode("utf-8"))

那么结果就会变成:

 所以说 encoding="utf-8" 很必要~

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值