python网络爬虫文档读取-纯文本读取

最新推荐文章于 2023-11-20 10:37:20 发布

VIP文章 perfecttshoot

最新推荐文章于 2023-11-20 10:37:20 发布

阅读量5.7k

点赞数 5

分类专栏： python网络爬虫文章标签： python网络爬虫纯文本读取文档读取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wanght89/article/details/78179929

版权

虽然把文件存储为在线的纯文本格式并不常见，但是一些简易网站，或者拥有大量“旧式学术”的网站经常会这样做。大多数浏览器可以很好的显示纯文本文件，采集它们也不会遇到什么问题。

对于大部分简单的纯文本文件，如http://www.pythonscraping.com/pages/warandpeace/chapter1.txt这个练习文件，你可以使用下面的方法读取：

from urllib.request import urlopen
textPage=urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")
print(textPage.read())

大多数时候用上面的方法读取纯文本都没有问题。但是，互联网上的文本文件会比较复杂。下面将会分析一些英文和非英文编码的基础知识，包括ASCII,Unicode和ISO编码，以及对应的处理方法。

UTF-8的每个字符开头有一个标记表示“这个字符只用一个字节”或“那个字符需要用两个字节”，一个字符最多可以是四个字节。由于这四个字节中还包含了一部分设置信息，用来决定多少字节用做字符编码，所以全部的32位并不会都用，其实最多使用21位。

最低0.47元/天解锁文章

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫文档读取-纯文本读取

python网络爬虫文档读取-纯文本读取，在互联网中，文档的读取经常会出现，如何在爬虫中高效地采集纯文本文档的数据，需要注意文档的编码。
复制链接

扫一扫

专栏目录

perfecttshoot CSDN认证博客专家 CSDN认证企业博客

码龄11年

105: 原创

18万+: 周排名

184万+: 总排名

31万+: 访问

: 等级

4129: 积分

115: 粉丝

284: 获赞

38: 评论

309: 收藏

私信

关注

热门文章

分类专栏

Flex开发 3篇
Flex 3篇
Ruby
Ruby&MongoDB 23篇
MongoDB 15篇
python网络爬虫 37篇
Linux 4篇
python 2篇
自然语言处理 5篇
Spring Boot
机器学习 7篇
区跨链&IPFS 1篇
系统架构 1篇
面试 5篇
Netty 2篇
设计模式 3篇
Nginx 1篇

最新评论

java异常-父类异常与子类异常之间的捕获关系
Zpc_12345: 父类抛出的异常，子类异常去捕获编译是通不过的，除非你去throws去抛出，才能通过编译
java异常-父类异常与子类异常之间的捕获关系
赫鲁小玉米: catch中的异常类型如果满足子父类关系，则要求子类一定声明在父类的上面。因此：第一部分的代码可以正常捕获；而第二部分父类异常在子类异常前面catch了，所以子类异常不能捕获；最后一段代码Exception是Sneeze的父类，写在了最后，故可以捕获到。
java异常-父类异常与子类异常之间的捕获关系
么么哈: 范围大的异常要放在后面范围小的要放在前面
python自然语言处理-使用NLTK做统计分析
wl2020mxxb: 请问您解决了吗
python网络爬虫文档读取-微软Word文档和.docx
Ai_Zbh: textString=wordObj.findAll("w:t")，获取到的textString是空列表[ ] ,这是怎么回事大佬

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。