Python爬取各类文档方法归类小结，获取文档资料必备小脚本

最新推荐文章于 2023-12-04 11:29:44 发布

「已注销」

最新推荐文章于 2023-12-04 11:29:44 发布

阅读量250

点赞数

文章标签： csv html xml character qml

前言

HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法，以备查阅。

抓取TXT文档

在python3下，常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。

如果抓取的是某个HTML，最好先分析，例如：

抓取CSV文档

抓取PDF文档

抓取word

方法：

（1）利用urlopen抓取远程word docx文件；

（2）将其转换为内存字节流；

（3）解压缩（docx是压缩后文件）；

（4）将解压后文件作为xml读取

（5）寻找xml中的标签（正文内容）并处理

扫描下方二维码

加入优质社群一起交流吧！

如若二维码过期

请添加小编微信,回复关键词：[进群/加群],

-今日互动-

今天的文章内容你学会了吗？

欢迎文章下方留言互动

如果对你有帮助的话

❤️来个「转发朋友圈」和「在看」，是最大的支持❤️

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬取各类文档方法归类小结，获取文档资料必备小脚本

前言HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。