这两天开始学习爬虫,发现爬取网站时,爬下来的源码里面的文本内容乱码,奇怪的是有的网站没有乱码,有的网站乱码了,查找资料时发现,这是由于每个网站的编码方式差异造成的。
这个是爬取内涵段子时的源代码,当打印网页源代码时,发现文本信息乱码:
然后我又试了下csdn的网站:
发现文本信息并没有乱码
在网上查找资料知道,每个网站的编码方式不
这两天开始学习爬虫,发现爬取网站时,爬下来的源码里面的文本内容乱码,奇怪的是有的网站没有乱码,有的网站乱码了,查找资料时发现,这是由于每个网站的编码方式差异造成的。
这个是爬取内涵段子时的源代码,当打印网页源代码时,发现文本信息乱码:
然后我又试了下csdn的网站:
发现文本信息并没有乱码
在网上查找资料知道,每个网站的编码方式不