python网络爬虫文档读取-纯文本读取

最新推荐文章于 2024-08-02 21:45:50 发布

perfecttshoot

最新推荐文章于 2024-08-02 21:45:50 发布

阅读量5.7k

点赞数 5

分类专栏： python网络爬虫文章标签： python网络爬虫纯文本读取文档读取

本文链接：https://blog.csdn.net/wanght89/article/details/78179929

版权

本文介绍了如何使用Python读取纯文本文件，特别是从在线资源中获取。通过示例展示了针对UTF-8编码的处理方式，解释了UTF-8和ASCII编码的区别，并提及ISO标准在处理不同语言编码中的作用。

摘要由CSDN通过智能技术生成

虽然把文件存储为在线的纯文本格式并不常见，但是一些简易网站，或者拥有大量“旧式学术”的网站经常会这样做。大多数浏览器可以很好的显示纯文本文件，采集它们也不会遇到什么问题。

对于大部分简单的纯文本文件，如http://www.pythonscraping.com/pages/warandpeace/chapter1.txt这个练习文件，你可以使用下面的方法读取：

from urllib.request import urlopen
textPage=urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")
print(textPage.read())

大多数时候用上面的方法读取纯文本都没有问题。但是，互联网上的文本文件会比较复杂。下面将会分析一些英文和非英文编码的基础知识，包括ASCII,Unicode和ISO编码，以及对应的处理方法。

UTF-8的每个字符开头有一个标记表示“这个字符只用一个字节”或“那个字符需要用两个字节”，一个字符最多可以是四个字节。由于这四个字节中还包含了一部分设置信息，用来决定多少字节用做字符编码，所以全部的32位并不会都用，其实最多使用21位。

关注

专栏目录