在网页爬取过程中,在爬取到相关信息后,还要进行编解码的操作,编码encode,解码decode,其实对于现如今的网站来讲,百分制70的网页的解码decode格式都是utf-8
但是,如果你在尝试使用utf-8无法解码的时候,你可以通过网页工具,查看后得到相关内容
具体操作步骤
右击鼠标,点击检查,出现这样的一个界面
然后点击上面哪一行中的netork,点进去之后,我们可以注意到上边有个框子里有Search,点进去输入charset,然后单击那个圆圈
就会出现下边这么一长串的东西
点击第一个,可以看到它转到了这样一个界面
加粗的那一个部分可以看到有charset后边有utf-8的字样,这就是网页的编码形式。
或者可以点击Console,在里边输入document.charset,也可以查看网页编码形式。
要解码成的编码格式,注意和编码用的编码格式要一致