python写的爬虫抓取到的网页是乱码解决

最新推荐文章于 2023-11-07 17:12:44 发布

weixin_34008933

最新推荐文章于 2023-11-07 17:12:44 发布

阅读量85

点赞数

文章标签：爬虫 python

原文链接：http://blog.51cto.com/baiying/1162617

版权

本文摘自黄老师的培训内容-点击查看

在开发自用爬虫过程中，有的网页是utf-8，有的是gb2312,有的是gbk，怎么办？

下面所说的都是针对python2.7

如果不加处理，采集到的都是乱码，解决的方法是将html处理成统一的utf-8编码。

#chardet 需要下载安装

import chardet

#抓取网页html

html_1 = urllib2.urlopen(line,timeout=120).read()

#print html_1

mychar=chardet.detect(html_1)

#print mychar

bianma=mychar['encoding']

if bianma == 'utf-8' or bianma == 'UTF-8':

#html=html.decode('utf-8','ignore').encode('utf-8')

html=html_1

else :

html =html_1.decode('gb2312','ignore').encode('utf-8')

有以上处理，整个html就不会是乱码。

转载于:https://blog.51cto.com/baiying/1162617

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34008933

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python3 爬虫抓取网页出现乱码问题解决方法

qq_33440662的博客

09-20

5798

python抓取网页并写到本地文件中，出现乱码问题的关键有两处：抓取网页数据后是否正确解码正确解码后的html字符串写入文件时是否正确编码要解决这两个问题，首先要知道该网页是如何编码的，先看看下面代码： import requests head = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) Firefox/21.0"...

Python爬虫——简单网页抓取（实战案例）小白篇_python爬虫爬取网页数据

最新发布

2401_84562810的博客

05-02

1518

pythonkw = input(‘请输入要翻译的英文单词：’)data = {‘kw’: kw# 由于百度翻译没有反扒措施，因此可以不写请求头‘referer’: ‘百度翻译-200种语言互译、沟通全世界！’,

参与评论您还未登录，请先登录后发表或查看评论

python 采集中文乱码问题的完美解决方法

09-21

下面小编就为大家带来一篇python 采集中文乱码问题的完美解决方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧

python爬取网页有乱码怎么解决

qq_56058244的博客

11-07

1856

爬虫出现乱码

Python3爬取网页信息乱码怎么解决？（更新：已解决）

学习笔记

09-29

7612

大家好，我遇到的问题是这样的：问题背景：Python3.4爬取前程无忧招聘信息。环境：Pycharm Python3.4 问题：爬取的多数网页的招聘信息是正常的，个别网页出现乱码，但是我浏览器打开乱码的个别网页，显示也是正常的。里面内容是中文的招聘信息。这是为什么呢？终端输出的正常和掺杂在里面的乱码招聘信息如下。 [code=python] #!/usr/bin/env p

爬虫网页编码问题解决思路

weixin_34130389的博客

02-27

239

用python抓取网页，很容易遇到例如：'utf8' codec can't decode byte 0xc5 类似的编码的问题。这里提供几种排查思路：可以先查看你的Linux系统是不是UTF-8。如果不是的话可以修改：echo $LANGexport LANG=en_US.UTF8首先python2默认所有编码统一是unicode，因此你可以在代码前面加入#-*-codin...

爬虫爬取实例与乱码的处理

weixin_30393907的博客

02-23

241

爬虫的实战例子： 1.百度图片：　　百度图片是ajax的数据，其中gsm是十六进制的 2.梨视频：　　梨视频的参数filter不需要直接请求其他的参数3.搜狐科技：　　获取搜狐科技的内容4.QQmusic的爬取：　　获取QQmusic歌单里面的所有歌曲5.淘宝实战：　　selenium抓取淘宝的图片 6.彩票网站：　　抓取彩票网站的信息，并对中奖号码进行可实话呈像...

Python网络爬虫出现乱码问题的解决方法

12-24

Python网络爬虫在抓取网页数据时，可能会遇到各种乱码问题，这主要源于源网页的编码和爬虫程序处理编码之间存在不匹配。解决乱码的关键在于正确地识别和处理网页的编码。首先，我们需要了解乱码产生的原因。源网页...

python爬取网页有乱码怎么解决_Python抓取网页乱码的解决方法分析

weixin_39890102的博客

11-24

1385

Python抓取网页乱码的原因及解决方法本篇文章给大家带来的内容是关于Python抓取网页乱码的原因及解决方法，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题：运行环境的字符编码和网页的字符编码不一致。比如，在 windows 的控制台（gbk）里抓取了一个 utf-8...

Python爬虫基于lxml解决数据编码乱码问题

12-17

然而，当爬虫抓取到的数据包含非ASCII字符时，如中文字符，如果没有正确处理编码，就可能出现乱码现象。例如，以下代码段可能会导致乱码问题： ```python response = requests.get(url=url, headers=headers) ...

python 爬虫网页乱码问题解决方法

python_wsc的博客

05-09

1万+

在使用python爬取网页时，经常会遇到乱码问题，一旦遇到乱码问题，就很难得到有用的信息。本人遇到乱码问题，一般有以下几个方式：1、查看网页源码中的head标签，找到编码方式，例如：在上图中，可以看到charset='utf-8',说明这个网页很大可能是采用‘UTF-8’编码（是很大可能，但不是百分之百），因此可以试试这个编码方式：result = resp...

Python爬虫——爬取网页时出现中文乱码问题

热门推荐

lucky_shi的博客

03-02

4万+

网页字符乱码处理一、查看原网页编码的方式 1.首先呢，咱来说说如何在网页中查看编码方式，以爱奇艺为例，爱奇艺进入爱奇艺网页页面，鼠标 “右击–>检查–>点击Console–>输入document.charse 即可显示出网页的编码格式,如图：![在这里插入图片描述](https...

在pycharm中抓取网页URL中文乱码解决方案

MrLevo520的博客

06-14

1万+

python2.7抓取网页url中文乱码解决方式

爬虫小问题（3）：爬取的页面出现乱码，Unicode和utf-8、gbk之间的关系

F3519797075的博客

07-12

1888

爬虫小问题（3）：爬取的页面出现乱码问题在爬虫中出现中文内容的时候，爬取下来的html页面会出现乱码。原因：爬取下来的页面是一般默认编码为ASCII。而windows控制台默认gbk，抓取utf-8编码的网站或者Mac终端（utf-8）抓取了gbk编码的网站，都容易出现。如果页面中英文、数字、符号都没有问题，仅仅是没有中文内容，而是夹杂着一堆乱码，那就是这种情况。解决方法： 1.去原网站查找网站编码，然后将爬取的页面编码设置为该编码。在该网站开发者页面中，Ctrl+F搜索charset属性

python抓取gb2312/gbk编码网页乱码问题

junli_chen的博客

11-28

1万+

做了个网络爬虫抓取网页，但如果网页是gbk/gb2312编码，则会出现乱码问题，如下：取得文字后，直接打印，输出结果str如下：¹óÖÝÈËÊÂ¿¼ÊÔÐÅÏ¢Íø_¹óÖÝÈËÊÂ¿¼ÊÔÍø_¹óÖÝ¹«ÎñÔ±¿¼ÊÔÍø_¹óÖÝÖÐ¹« 这个问题困扰我好长时间，baidu,google了一番也没有找到完全可行的方法，继续瞎折腾，最后居然搞出来了！编码转换来转换去的，还是得不

python爬虫乱码解决方案

wanbianip的博客

09-16

1312

现在学习爬虫程序的人越来越多，学习中难免会遇到问题，比如爬虫时出现了乱码。下面给大家分享一下爬虫乱码的解决方法。网络爬虫有两种选择，一种是nutch、 hetriex，另一种是自编的爬虫。当处理乱码时，原理是一样的，但是当处理乱码时，前者只能在理解源代码后修改它，所以有必要浪费一些精力；后者更加自由和方便，并且可以在编码过程中进行处理。这也是为什么许多人在编写带有框架的爬虫程序时无法启动的原因。例如，相对成熟的nutch在处理乱码字符方面比较简单，所以乱码字符还是会出现，所以需要二次开发才能真正解决乱码问

python爬虫爬取内容为乱码（解决方法）

weixin_47514459的博客

01-09

1万+

小编答应朋友想爬取某某某论文，然后爬取内容竟然是乱码？所以小编就请教老师，自己做笔记总结自己的学习历程。 python处理乱码自己按自己思路执行的代码，然后计算机执行的代码，总有一些差距。具体情况，学习过来的小伙伴都懂。现象下面来说说解决办法吧。我们下要先当我们获取的内容为乱码是是因为什么导致的，可能是requests.text的解码方式不正确，要看html中的字符编码方式。点击F12——>点进Console——>输入document.charset 如图看见编码格式是“GBK” 这.