虽然把文件存储为在线的纯文本格式并不常见,但是一些简易网站,或者拥有大量“旧式学术”的网站经常会这样做。大多数浏览器可以很好的显示纯文本文件,采集它们也不会遇到什么问题。
对于大部分简单的纯文本文件,如http://www.pythonscraping.com/pages/warandpeace/chapter1.txt这个练习文件,你可以使用下面的方法读取:
from urllib.request import urlopen
textPage=urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")
print(textPage.read())
UTF-8的每个字符开头有一个标记表示“这个字符只用一个字节”或“那个字符需要用两个字节”,一个字符最多可以是四个字节。由于这四个字节中还包含了一部分设置信息,用来决定多少字节用做字符编码,所以全部的32位并不会都用,其实最多使用21位。