up的系统是win10,python版本3.7,浏览器是chrome
尝试爬小说的时候出现了乱码。。。
解决方法1:
网页编码方式不同
进入自己需要爬去的网页,按F12(不同浏览器不一样)进入该1-1页面:
点击head前方的小三角1-2
就可以看到这行文字,xxx就是该网页的编码方式了。
如果用的是requests模块的话
加上这一行:
your_name.encoding = 'xxx'
应该就可以了。
(然而up没有成功。。。)
解决方法2:
网页信息被压缩
首先确定网页信息是否被压缩:
重新来到1-1页面:
点击Network1-3
来到1-4页面(up打开的网页是笔趣阁)1-4
右键表头(蓝色圈内)1-5
点击Response Headers内的Content-Encoding
勾上它。
之后会发现——1-6
多出了一栏Content-Encoding
如果页面有压缩,下面就会显示gzip
解压要使用python的gzip和io库解决
your_name = gzip.GzipFile(fileobj = StringIO.StringIO(htmlbody),mode = "r").read()
之后就可以啦~
^-^
开心?
然而并没有。。。
报错“can't concat str to bytes”
2000年过去了——
终于,发现是python2,和python3,的不一样之处:
python2可以直接将字节和字符串拼接,然而python3不行。。。
由于懒癌突然发作,up直接换了个网站,然后~
成功啦~~~
(不要打我QAQ)