python爬虫中文不能正常显示问题的解决

本文链接：https://blog.csdn.net/dai_girl/article/details/80285991

最近作业要用到网站（http://nba.sports.sina.com.cn/players.php）中的数据，初次爬取，中文不能正常显示。查找了很多资料，参考了很多例子。理论没了解很多，但最终实现效果了。直接贴项目中实现的代码：

import requests
import urllib.request
from lxml import etree
#要抓取的页面链接
url='http://nba.sports.sina.com.cn/players.php'
r=requests.get(url)
r.encoding='gb2312'#解决中文不能正常显示
s=etree.HTML(r.text)
result=etree.tostring(s)
file=s.xpath('//a/text()')
print(file)

上面是一段完整的代码，网上很多时候给出了关键代码，但个人认为一些库的使用还是挺重要的。

本程序解决中文不能正常显示问题重要用到r.encoding，本项目涉及的网站编码方式为“gb2312”（可通过查看源页面的charset属性获取）,故该处参数设置为“gb2312”，经过尝试设置为“gbk”也可以，查找资料发现“gbk”包含全部中文字符在国家标准“gb2312”基础上向后兼容“gb2312”的标准。但是，又想到“utf-8”包含全世界所有国家需要用到的字符，又尝试修改为“utf-8”，中文依旧没能正常显示，目前还没弄懂原因，可能还是对编码知识了解不够多，希望大神们能够多多指教~

注：“gbk”收入21886个汉字和图形符号；“gb2312”标准共收录6763个汉字。