开始学习一下Python,想读取一下远程文件的操作
- # coding=gbk
- import urllib.request
- import re
- url = 'http://www.163.com'
- file = 'd:/test.html'
- data = urllib.request.urlopen(url).read()
- r1 = re.compile('<.*?>')
- c_t = r1.findall(data)
- print(c_t)
发现读取下来后,运行到第9 行,出现:
can't use a string pattern on a bytes-like object
查找了一下,是说3.0现在的参数更改了,现在读取的是bytes-like的,但参数要求是chart-like的,找了一下,加了个编码:
data = data.decode('GBK')
在与正则使用前,就可以正常使用了..
本文介绍如何使用Python读取远程文件,并解决因字符编码导致的问题。通过具体实例展示了如何利用urllib.request模块获取网页内容,以及如何通过正则表达式处理这些内容。
4万+





