python爬虫html_网页爬虫 - python爬虫打印HTML问题

最新推荐文章于 2022-07-21 10:39:14 发布

weixin_39934063

最新推荐文章于 2022-07-21 10:39:14 发布

阅读量273

点赞数

文章标签： python爬虫html

本文链接：https://blog.csdn.net/weixin_39934063/article/details/111418045

版权

问题

import urllib.request

import urllib.parse

page = 1

url = "http://www.qiushibaike.com/8hr/page/" + str(page)

headers = {

"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)"

}

request = urllib.request.Request(url, headers=headers)

response = urllib.request.urlopen(request).read()

html = response.decode("utf-8")

print(html)

运行后就报错误:

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 18194-18195: invalid continuation byte

把'utf-8'改成'GBK'也不行一样报错，这个要怎么解决？

解决方案

"User-Agent": "Mozilla/5.0 (windows 6.0)"

python3

import urllib.request

url = "http://www.qiushibaike.com/8hr/page/1"

headers = {

#"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)"

"User-Agent": "Mozilla/5.0 (windows 6.0)"

}

request = urllib.request.Request(url, headers=headers)

response = urllib.request.urlopen(request)

c = response.read()

h = c.decode('utf-8')

print(h)

扫一扫关注IT屋

微信公众号搜索 “ IT屋 ” ，选择关注与百万开发者在一起

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39934063

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Python】Python3网络爬虫实战-26、正则表达式

Python8年程序员教程分享

07-27

891

selenium控制浏览器打印网页_爬虫（六）——Selenium自动控制浏览器

weixin_36331580的博客

01-25

4007

一、是什么seleniumselenium是一个功能强大的Python库，用几行代码就能控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。遇到验证码很复杂的网站时，selenium允许让人去手动输入验证码，然后把剩下的操作交给浏览器。用html写出的静态网页源代码中包含了页面所有信息，因此地址栏的URL就是网页源代码的URL。用json存储的数据不在HTML源...

参与评论您还未登录，请先登录后发表或查看评论

爬虫获取html页面,页面爬虫（获取其他页面HTML）加载到自己页面

weixin_39931923的博客

06-03

301

//前台$(document).ready(function() {var url = "@Url.Action("GetPageHtml","Catalog")";$.ajax({url: url,type: "POST",dataType:"json",data: { url: "http://www.baidu.com" },error: function () {alert("bbb");...

Python爬虫学习(一）：爬取一个网页并打印

qq_39258161的博客

11-04

4042

爬虫一般依赖于requests库，首先通过pip或conda命令安装requests库。切换到自己环境所在的终端。输入以下命令： pipinstallrequests / pip install requests 然后在自己的环境中导入requests库看会不会报错。 importrequests 库安装没有问题后开始使用requests库进行第一个Python爬虫。目的爬取百度页面，并且将其打印出来，并消除其打印出来时可能会发生的乱码。以下给出代码： import requ...

[笔记]python爬虫学习笔记（一）——网页的获取和打印

Cccrush的博客

05-12

6251

urllib包：处理URL包含模块：urllib.request：打开并读取URLsurllib.error：包含一些有urllib.request产生的错误，可以使用try进行捕捉urllib.parse：包含一些解析URLs的方法urllib.robotparser：解析robots.txt文本文件，它提供了一个单独的RobotFileParser类，通过该类提供的can_fetch()方法测...

网络爬虫-Python和数据分析.rar_python 爬虫_爬虫 python_爬虫 python_爬虫python

07-15

利用Python来实现的爬虫，高效且可靠。

mzitu_win_爬虫python_爬虫_python爬取图片_mzitu图片_python爬虫_

10-04

标题中的“mzitu_win_爬虫python_爬虫_python爬取图片_mzitu图片_python爬虫_”表明这是一个关于使用Python爬虫抓取Mzitu网站图片的项目。Mzitu是一个知名的网络平台，主要发布各类美女图片，因此这个项目可能是为了...

2：python网络爬虫权威指南_python网络爬虫权威指南_python爬虫指南_

09-29

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

用Python写网络爬虫.pdf_爬虫_python爬虫_python写爬虫_网络爬虫_python爬虫_

09-30

Python爬虫需要处理这些问题，如更换User-Agent、使用代理IP池等。 9. **Scrapy框架**：对于大规模爬虫项目，Scrapy提供了一套完整的框架，包括请求调度、中间件处理、爬虫定义和数据管道等，提高了开发效率和可...

用Python写网络爬虫.rar_python 爬虫_python爬虫_python网络爬虫_写网络爬虫_精通python

07-15

用Python写网络爬虫,从最基础到精通

爬虫基础：使用python打印网页的源码

weixin_42868774的博客

06-21

915

一个最简单的爬虫-HTML输出器

小明的博客

11-25

3162

#HTML输出器 class HtmlOutputer(object): def __init__(self): self.datas = [] def collect_data(self, data): if data is None: return self.datas.append(data) de

python爬虫的html格式输出 prettify（）

weixin_44076384的博客

02-09

1528

基于bs4库的html格式输出 prettify（）方法如何让内容更加友好地显示，对人友好，对我们所写的程序也友好？？？我们发现在bs4库中有一个prettify（）方法该方法可以被r.text调用，也可以被html的各个标签对象调用它的作用就是使解析出来的html程序“每逢标签，自动换行” 可以对程序起到很好的作用辅助。 ...

【python爬虫专项（6）】网页标签解析（文档树输出、搜索及遍历）

lys_828的博客

02-07

2066

1. 文档树格式化输出soup.prettify() 还是以官方的示例代码为例，首先进行变量定义，然后再进行代码解析，html案例代码如下 """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b&gt...

python requests 爬虫--爬取HTML源码不显示正文已解决

LOVEYSUXIN的专栏

12-05

1万+

爬虫第一步：获取整个网页的HTML信息。源代码如下： # -*- coding:UTF-8 -*- import requests if __name__ == '__main__': target = 'https://www.biqukan.com/1_1094/5403177.html' req = requests.get(url=target) req...

python的requests请求因为中文符号报错:＜!DOCTYPE HTML PUBLTC “-//W3C//DTD HTML 4.01 Transitional//EN“＞

qq_44497995的博客

07-21

1687

python的requests请求因为中文符号报错:或者报错You should supply an encoding or a list of encodings to []

python-----使用requests的get方法获取HTML内容