Python 网页链接中文乱码的解决

最新推荐文章于 2024-08-08 17:59:21 发布

圈圈烃

最新推荐文章于 2024-08-08 17:59:21 发布

阅读量1.8k

点赞数 2

分类专栏： Python 文章标签： python 链接中文乱码解决

本文链接：https://blog.csdn.net/Q_QuanTing/article/details/82836914

版权

Python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Python 网页链接中文乱码的解决

问题

在实现python网络爬虫的过程中，有时候你会发现有些链接中的中文字符会变成“乱码”。当然所有的乱码都是缺少一个合适解码编码方式。如果我们需要提取网页链接中的中文字符这么办？

例如下面这条链接：
https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E

解决办法

当然现在有些网站可以在线解码，例如：

https://www.bejson.com/enc/urlencode/

在python中我们可以从urllib.parse库中导入unquote模块。

实现如下：

from urllib.parse import unquote

url = "https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E"
new_url = unquote(url, 'utf-8')
print(new_url)

效果如图：

最后

希望对大家有所帮助！：-）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

圈圈烃

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python中文出现乱码怎么解决？

lmseo5hy的博客

01-15

1万+

Python中出现乱码，英文显示没问题，一般是中文输出出现了编码问题，如果python文件中没有指定编码，在执行过程中就会出现报错！ Python中默认的编码格式是 ASCII 格式，在没修改编码格式时无法正确打印汉字，所以在读取中文时会报错。解决方法为只要在文件开头加入 # -*- coding: UTF-8 -*- 或者 #coding=utf-8 就行了注意：Python3.X 源...

python解析pdf中文乱码_使用Python第三方库pdfminer提取PDF内容，并解决中文编码不支持的问题...

weixin_39857792的博客

12-04

2102

这两天刚好完成一个提取人行简版征信报告PDF所有数据的小项目，中间踩了很多坑，尤其是对于汉字编码问题度娘也不太灵。为了方便后人，在这里记录下在这个过程中我遇到的问题以及我的解决方法。我用的是mac系统，Python 3.6，依赖第三方库pdfminer3k 1.3.1。这个是pdfminer的python 3.x版本，原始版为pdfminer，只支持python2 .x。如果想要支持中日韩文字，这...

参与评论您还未登录，请先登录后发表或查看评论

python 爬取网址信息，结果出现中文乱码的解决方法

u013789737的博客

08-27

800

wy = requests.get(url) 解决网页中文乱码方法如下： wy.content.decode(“utf8”, “ignore”).encode(“gbk”, “ignore”) html = wy.text

python中文乱码如何处理、如何处理跨域_解决Python发送Http请求时,中文乱码的问题...

weixin_39839541的博客

01-29

241

解决方法：先encode再quote。原理：msg.encode('utf-8')是解决中文乱码问题。quote()：假如URL的 name 或者 value 值中有『&』、『%』或者『=』等符号，就会有问题。所以URL中的参数字符串也需要把『&=』等符号进行编码，quote()就是对参数字符串中的『&=%』等符号进行编码。例子：# -*- coding: UTF-8 -*...

3种Python爬虫 中文乱码 的处理方法

最新发布

Python_00001的博客

08-08

1068

Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。

Python 乱码的解决方法 2021-04-05

OH_YEAR的博客

04-05

5万+

Python乱码的解决方法方法一：直接指定res.encoding import requests url = "http://search.51job.com" res = requests.get(url) res.encoding = "gbk" html = res.text print(html) 方法二：通过res.apparent_encoding属性指定 import requests url = "http://search.51job.com" res = re...

python显示中文乱码_解决python中文乱码的方法

weixin_39634052的博客

11-21

1万+

首先需要说明的是，windows下的文件路径，cmd窗口等默认编码都是gbk但在windows下编写python程序的时候，我们一般采用的编码是utf-8二者不一致是导致乱码的根本原因！在pycharm下，为了中文不乱码，那么需要注意一下几个方面：一、每一个源程序文件头部，需要加上#-*-coding:utf-8-*-二、pycharm每个文件的编码设置，需要设置为utf-8（注意下图右下方的红框...

bs4 乱码_Python BeautifulSoup中文乱码问题的2种解决方法

weixin_42475535的博客

01-17

2754

Python BeautifulSoup中文乱码问题的2种解决方法解决方法一：使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码代码如下:from bs4 import BeautifulSoupimport urllib2url = 'http://www.jb51.net/'page = urll...

解决python3 urllib 链接中有中文的问题

09-20

这里的内容概述了Python3中urllib模块处理中文URL时的常见错误，以及如何通过编码和解码来解决该问题。实际编码时要根据具体的网络环境和服务器配置做适当调整，并且在开发中关注细节，才能使网络编程更加顺利。

Python 爬虫数据乱码解决方式

weixin_48826751的博客

03-10

6982

数据乱码大多来自于编码格式不支持中文显示，解决方式主要有如下两个： 1.设置对响应对象的编码格式 2.设置爬取到的数据编码格式及解码格式

Django生成PDF文档显示网页上以及PDF中文显示乱码的解决方法

09-18

本文将详细介绍如何解决Django生成PDF时中文出现乱码的问题，以及整个流程的实现步骤。首先，我们需要安装必要的库。Django本身并不直接支持PDF生成，但我们可以借助第三方库如`xhtml2pdf`来实现。使用pip安装这两...

已解决Python爬虫网页中文乱码问题

努力让自己发光，对的人才能迎着光而来

11-11

1万+

已解决Python爬虫网页中文乱码问题

python抓取中文网页乱码通用解决方法

烂笔头

03-19

2932

我们经常通过python做采集网页数据的时候，会碰到一些乱码问题，今天给大家分享一个解决网页乱码，尤其是中文网页的通用方法。首页我们需要安装chardet模块，这个可以通过easy_install 或者pip来安装。安装完以后我们在控制台上导入模块，如果正常就可以。比如我们遇到的一些ISO-8859-2也是可以通过下面的方法解决的。直接上代码吧： import urllib2 import...

数据库基础操作

qq_43198727的博客

09-17

326

数据库的格式入如果不是UTF-8的话就会出现乱码那么如何避免这些问题呢数据库分为客户端跟服务端首先要让服务端读懂这是 UTF-8的代码所以呢他来了 //设置名称utf8不用写- 客户端连接服务器短的编码 set names utf8; //设置服务端创建数据库使用的编码 CREATE DATABASE xz CHARSET=UTF8; //这两个都要设置练习：编写脚本文件01_sina.sql，设置编码为utf8，创建数据库sina，进入该数据库，创建保存新闻数据的表news，包含有编号ni

python 爬虫网页中文乱码解决

IT深耕十余载，大道之简

06-27

948

刚刚练习python爬虫网页信息，遇到网页信息中文乱码问题。第一感觉肯定是编码问题，python编译器中默认编码格式UTF-8，我爬取的网页信息是GB2312因此不同编码下显示中文会出现乱码问题。 python中提供了chardet.detect()快速检测内容编码格式，或者通过浏览器调试模式查看网页编码格式通过python代码获取编码格式：通过浏览器调试模式获取编码格式： ...

python显示乱码_python显示乱码

weixin_33764463的博客

12-24

796

匿名用户1级2018-04-27 回答多次被python的编码/乱码问题困扰，相信pythoner们都被困扰过，网上铺天盖地的资料太多也参差不齐，就整理了下。本文从使用的角度系统总结了python编码相关的一些概念，将本文的例子玩一遍，基本上对python的编码问题就清楚了。首先明确几个概念：字节流：以utf8/gbk等编码编码的字节流。unicode对象：python代码中，a=u'中国', 或...

python中爬取网页数据时中文乱码的解决方法

weixin_45619473的博客

05-24

2696

在我们爬取网页源代码时，尝尝会出现中文乱码的问题，加入如下代码可解决问题，亲测有用。 page_text = response.text.encode("latin1").decode("utf-8-sig")

VS2019中文输出乱码解决方法（C语言）