1爬虫百度首页结果失败成空页以及为什么出乱码

砥砺前行的菜鸟程序员

已于 2022-07-08 12:20:50 修改

阅读量1k

点赞数 2

分类专栏：学习爬虫文章标签： python

于 2022-07-07 11:55:43 首次发布

本文链接：https://blog.csdn.net/weixin_41576396/article/details/125655920

版权

学习爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

跟着B站视频第一次学习爬虫果不其然失败下面是我的代码

from urllib.request import urlopen
url = "https://www.baidu.com/index.php?tn=monline_3_dg"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8")as f:
    f.write(resp.read().decode("utf-8"))
print("over~")

我的失败mybaidu.html

<html>
<head>
	<script>
		location.replace(location.href.replace("https://","http://"));
	</script>
</head>
<body>
	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>

方法方法方法：

将 url 中的 https 改成 http 一切迎刃而解

补充如果代码 withopen中这样写：

with open("mybaidu2.html", mode="w")as f:
    f.write(resp.read().decode("utf-8"))

那么结果就会变成：

所以说 encoding="utf-8" 很必要~

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

砥砺前行的菜鸟程序员

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

空页

02-15

很抱歉，根据您提供的信息，标题为"空页"，描述也是"空页"，并且标签为空，这表明没有具体的IT知识主题或内容可供详细解释。压缩包子文件的文件名称列表中只有一个条目"Ethereal-Page--master"，这通常与一个软件...

解决Python爬取百度页面出现中文乱码问题

ungoing的博客

12-28

4913

开始跟着B站上学习爬虫，使用的工具是PyCharm。视频链接：https://b23.tv/NLp4gz6?share_medium=android&share_source=qq&bbid=XYC5605C8F19F10D959B8A59F386FD514EF41&ts=1640697988835 爬虫代码如下： # -*- coding: utf-8 -*- # 爬虫：本质是通过编写程序来获取到互联网上的资源 # 百度 # 需求：用程序模拟浏览器，输入一个网址，从该网址中

1 条评论您还未登录，请先登录后发表或查看评论

爬取网站时返回的html是乱码问题解决

西门一刀的博客

08-01

1426

在爬取网站新闻时发现，返回的html代码中中文是乱码

python爬虫爬取百度存成html出现中文乱码情况

Monica_dao的博客

11-05

2996

写的爬虫代码爬取百度页面，存成txt格式的或者直接输出下面代码都是正常的，不会出现乱码情况，但是一旦存成html之后打开就出现中文乱码。 from urllib.request import urlopen url = "http://www.baidu.com" resp = urlopen(url) with open("mybaidu.html",mode="w") as f: f.write(resp.read().decode("utf-8")) print("over!") ..

爬虫出现空列表或者长度为0是怎么回事？

最新发布

09-22

1. 在空白页上按下Backspace或Delete键，直到该页被删除。 2. 使用Ctrl+Shift+8快捷键，该快捷键可以显示或隐藏段落标记符号，你可以看到空白页的标记并删除它。 3. 在空白页上单击鼠标右键，选择“段落”，然后在...

我在使用 LaTeX 排版一本书时，发现 miktex-xelatex 命令编译出的 PDF 文件中，目录页后出现了一页空页，我并没有使用过 \newpage，并且已经使用 \documentclass[openany]{book}，没有语法错误，请问为什么会出现这种情况，该如何解决？

07-13

1. 检查文档中的章节标题和子标题是否有多余的空行。在使用 `\chapter` 或 `\section` 等命令时，确保标题与内容之间没有额外的空行。 2. 检查文档中是否有无效的分页命令。在 `\tableofcontents` 命令之后，确保...

爬取百度首页不报错但内容为空的情况

qq_46112218的博客

08-20

497

【代码】爬取百度首页不报错但内容为空的情况。

关于爬虫文字乱码的问题

qq_43094630的博客

02-26

229

python文字乱码问题

大伙，为啥我爬虫爬百度搜索得出的结果是0啊？

pdcfighting的博客

05-03

903

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤君王掩面救不得，回看血泪相和流。大家好，我是皮皮。一、前言前几天在Python白银交流群【~Crazy】问了一个Python网络爬虫处理的问题，这里拿出来给大家分享下。二、实现过程这里【eric】给了一个指导，可能是网页结构变化。这里【甯同学】发现了问题所在，如下图所示：顺利地解决了粉...

爬虫百度的时候，出现的问题

ZRXSLYG的博客

03-06

4426

from tornado.httpclient import HTTPClient client = HTTPClient() response = client.fetch('https://www.baidu.com/') print(response.body) client.close() ''' b'<html>\r\n<head>\r\n\t<sc...

【知识积累】爬虫之网页乱码解决方法(gb2312 -> utf-8)

weixin_33720956的博客

03-03

1584

前言　　今天在测试爬虫项目时，发现了一个很严肃的问题，当爬取的网页编码格式为gb2312时，按照一般的办法转化为utf-8编码时总是乱码，PS:爬取的所有网页无论何种编码格式，都转化为utf-8格式进行存储。一、问题出现　　使用这篇文章里面的方法可以直接爬取页面信息并保存至本地使用Httpclient实现网页的爬取并保存至本地，当爬取这个网页时http://stock.10jqka.c...

httpClient调用解决中文乱码问题以及使用

qq_40312909的博客

09-11

2694

httpClient调用解决中文乱码问题 1.请求方： @ResponseBody @RequestMapping(value = "/exportVehicleRelation", method = RequestMethod.POST) @ApiOperation(value = "车辆相关导出", notes = "车辆相关导出") public List<ExportVehi...

解决百度爬虫无法爬取 Github Pages 个人博客的问题

sniperjzp的专栏

02-02

1514

据 marketmechina 统计，去年12月份中国市场全平台（桌面+手机客户端）搜索引擎市场份额： Baidu: 67.09% Sogou: 18.75% Shenma: 6.84% Google: 2.64% bing: 2.6% Other: 2.08% 不得不说，即使大家现在如此 diss 百度，这中文搜索的第一把交椅，百度还是坐的很稳。想要获得中文搜索的流量，百度这一入口...

百度网页搜索无法通过域名访问_解决百度爬虫无法爬取 Github Pages 个人博客的问题...

weixin_39601194的博客

11-24

1066

据 marketmechina 统计，去年12月份中国市场全平台 (桌面+手机客户端)搜索引擎市场份额：Baidu: 67.09%Sogou: 18.75%Shenma: 6.84%Google: 2.64%bing: 2.6%Other: 2.08%不得不说，即使大家现在如此 diss 百度，这中文搜索的第一把交椅，百度还是坐的很稳。想要获得中文搜索的流量，百度这一入口不容忽视。GitHub P...

记练习Python3 urllib爬百度首页遭遇的坑

开源优测

02-05

446

作者：杭州-冬地址：https://github.com/small99/deeptest/tree/master/第一期/杭州-冬声明：本文已获作者授权转载，著作权归作者所有。编辑：苦...

1爬虫百度首页 结果失败成空页 以及 为什么出乱码

1爬虫百度首页结果失败成空页以及为什么出乱码