python爬虫中文不能正常显示问题的解决

    最近作业要用到网站(http://nba.sports.sina.com.cn/players.php)中的数据,初次爬取,中文不能正常显示。查找了很多资料,参考了很多例子。理论没了解很多,但最终实现效果了。直接贴项目中实现的代码:

import requests
import urllib.request
from lxml import etree
#要抓取的页面链接
url='http://nba.sports.sina.com.cn/players.php'
r=requests.get(url)
r.encoding='gb2312'#解决中文不能正常显示
s=etree.HTML(r.text)
result=etree.tostring(s)
file=s.xpath('//a/text()')
print(file)

上面是一段完整的代码,网上很多时候给出了关键代码,但个人认为一些库的使用还是挺重要的。

    本程序解决中文不能正常显示问题重要用到r.encoding,本项目涉及的网站编码方式为“gb2312”(可通过查看源页面的charset属性获取),故该处参数设置为“gb2312”,经过尝试设置为“gbk”也可以,查找资料发现“gbk”包含全部中文字符在国家标准“gb2312”基础上向后兼容“gb2312”的标准。但是,又想到“utf-8”包含全世界所有国家需要用到的字符,又尝试修改为“utf-8”,中文依旧没能正常显示,目前还没弄懂原因,可能还是对编码知识了解不够多,希望大神们能够多多指教~

注:“gbk”收入21886个汉字和图形符号;“gb2312”标准共收录6763个汉字。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值