最近作业要用到网站(http://nba.sports.sina.com.cn/players.php)中的数据,初次爬取,中文不能正常显示。查找了很多资料,参考了很多例子。理论没了解很多,但最终实现效果了。直接贴项目中实现的代码:
import requests import urllib.request from lxml import etree #要抓取的页面链接 url='http://nba.sports.sina.com.cn/players.php' r=requests.get(url) r.encoding='gb2312'#解决中文不能正常显示 s=etree.HTML(r.text) result=etree.tostring(s) file=s.xpath('//a/text()') print(file)
上面是一段完整的代码,网上很多时候给出了关键代码,但个人认为一些库的使用还是挺重要的。
本程序解决中文不能正常显示问题重要用到r.encoding,本项目涉及的网站编码方式为“gb2312”(可通过查看源页面的charset属性获取),故该处参数设置为“gb2312”,经过尝试设置为“gbk”也可以,查找资料发现“gbk”包含全部中文字符在国家标准“gb2312”基础上向后兼容“gb2312”的标准。但是,又想到“utf-8”包含全世界所有国家需要用到的字符,又尝试修改为“utf-8”,中文依旧没能正常显示,目前还没弄懂原因,可能还是对编码知识了解不够多,希望大神们能够多多指教~
注:“gbk”收入21886个汉字和图形符号;“gb2312”标准共收录6763个汉字。