在爬取文章的内容的时候,返回的值是乱码问题
问题描述:在爬取百家号文章的时候,返回的html是乱码的。查看的网页endonding=“utf-8”,爬虫也有enconding=“utf-8”,可是还是出现乱码。然后用函数的返回网页的enconding和confidence和language的时候出现了{‘enconding’:None,‘confidence’:0.0,‘language’:None}
解决办法:
将requests.get(url,header )的header的头部去掉,就可以将乱码变回中文字符