以chardet为例
最近学习爬虫,所以用到了chardet
首先chardet有两种下载方式:
1.在官网下载
2.pip install chardet
使用pip下载有的没有遇到问题,有的会遇到一个问题:超时
如果超时可以使用
pip --default-timeout=100 install chardet
另外一个问题,就是在官网下载的包,我下载的是chardet-3.0.4.tar.gz,将这个包放在python路径下的lib中的site-packages下面,然后解压
进入DOS界面,在chardet-3.0.4下进行python setup.py install:
解压完了之后,可以直接使用IEDL进行import chardet进行检验,如果没有报错,表示把这个第三方包已经安装完毕
然后再pycharm中导入这个包,我查了很多帖子都是在setting中添加这个包,但是可能是因为家里的网速问题,导包的时候,总是出现异常,这个时候呢,我们只需要将python.exe重新添加一下,就会自动显示chardet包:
这样界面里,会自动显示chardet包
然后就可以import来运行代码了,用以下代码测试一下:
import urllib.request
import chardet
def main():
url = input("请输入URL:")
response = urllib.request.urlopen(url)
html = response.read()
# 识别网页编码
encode = chardet.detect(html)['encoding']
if encode == 'GB2312':
encode = 'GBK'
print("该网页使用的编码是:%s" % encode)
if __name__ == "__main__":
main()
结果: