encode
文章平均质量分 55
mycar001
这个作者很懒,什么都没留下…
展开
-
str字符和unicode字符的区别
实际情况是,beautifulsoup处理后的网页,的确是utf-8的。而utf-8和unicode,本身就不相等。 首先,字符串分两种,一种是str字符,一种是unicode字符。str字符,就是普通字符,某种编码的字符,包括ANSI,GBK,UTF-8等,而Unicode就是原始的unicode,未经过encode编码的unicode,而进过某种编码,比如utf-8,gbk等编码后的unic转载 2017-10-27 14:12:56 · 4089 阅读 · 0 评论 -
【教程】如何用Python中的chardet去检测字符编码类型
【背景】 之前已经使用过chardet了,也算用了不少次了。 之前也写过和chardet相关的: 【已解决】windows下,安装python的chardet 【问题】Python中用Chardet检测出来从Windows的cmd中输入的字符串的编码是KOI8-R,而不是所希望的GBK或GB2312 【整理】Python的字符编码检测库:charade和chardet转载 2017-10-27 16:13:19 · 851 阅读 · 0 评论 -
【整理】Python的字符编码检测库:charade和chardet的区别
【背景】 之前用过Python的chardet: https://pypi.python.org/pypi/chardet (代码下载在:https://github.com/dcramer/chardet) 现在,在看Requests的编码方式时,看到有个新的字符编码检测库: charade https://pypi.python.org/pypi/chara转载 2017-10-27 16:15:24 · 573 阅读 · 0 评论 -
Python 2.x中的和编码相关的常见问题和注意事项
声明: 1.本文不再更新。 2.本人内容,已合并到: 【总结】Python中常见字符编码和解码方面的错误及其解决办法 新帖子总结的更加全面,并且分析了原因,和总结了解决办法,还给出了示例代码。 3.这方面的内容,如有更新,也只会更新到上述新帖子中。 Python 2.x中,的确是,经常性地,容易出现字符编码相关的错误。 即便像我这样的,算是在字符编码折转载 2017-10-27 16:18:01 · 232 阅读 · 0 评论 -
Python 2.x中常见字符编码和解码方面的错误及其解决办法
Python 2.x中的字符编码,设计的的确不好,导致初学者,甚至是即使用Python很长时间的人,都会经常遇到字符编解码方面的错误。 下面就把一些常见情,尽量的都整理出来,并给出相应的解决办法。 看此文之前 Python中字符编码所涉及的背后逻辑(从你输入字符,到终端显示字符的背后过程) 在去了解Python编码解码之前,还有个更加重要,但是很多时候却被其他解释相关知转载 2017-10-27 16:35:18 · 327 阅读 · 0 评论 -
自学Python八 爬虫大坑之网页乱码
Bug有时候破坏的你的兴致,阻挠了保持到现在的渴望。可是,自己又非常明白,它是一种激励,是注定要被你踩在脚下的垫脚石! python2.7中最头疼的可能莫过于编码问题了,尤其还是在window环境下,有时候总是出现莫名其妙的问题,有时候明明昨天还好好的,今天却突然。。。遇到这种问题真的是一肚子的火。。。fuck! 首先,在我们编写python代码的时候就要注意一些编码的规范。转载 2017-10-20 16:10:34 · 310 阅读 · 0 评论 -
Python 抓取网页学习系列之一(网页编码格式
第一步:你需要知道你所抓取的网页编码格式,方法:右键查看网页编码,ctrl +F ,搜索:charset 会看到:gbk" />,OK确定是gbk编码格式了; 为什么会提到编码,这里大概讲讲原理: 我们看到的所有字符,在计算机里面都是用01010101二进制编码,然后你要想在屏幕上看到ABCD,计算机需要指定某个特定的二进制串来对应ABCD,比如A是011,0100是B等,每个字母都转载 2017-10-20 16:15:46 · 979 阅读 · 0 评论 -
encode和decode
字符串在Python内部的表示是unicode编码. 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再unicode编码(encode)成另一种编码。 decode的作用是将其他编码的字符串转换成unicode编码, 如str1.decode('gb2312'),表示将gb2312编码的字符串转换成unicod转载 2017-11-03 17:25:18 · 402 阅读 · 0 评论