Python爬取各类文档方法归类小结,获取文档资料必备小脚本

前言

HTML文档是互联网上的主要文档类型,但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息,也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法,以备查阅。

抓取TXT文档

在python3下,常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。

如果抓取的是某个HTML,最好先分析,例如:

抓取CSV文档

抓取PDF文档

抓取word

方法:

(1)利用urlopen抓取远程word docx文件;

(2)将其转换为内存字节流;

(3)解压缩(docx是压缩后文件);

(4)将解压后文件作为xml读取

(5)寻找xml中的标签(正文内容)并处理

扫描下方二维码

加入优质社群一起交流吧!

如若二维码过期

请添加小编微信,回复关键词:[进群/加群],

-今日互动-

今天的文章内容你学会了吗?

欢迎文章下方留言互动

如果对你有帮助的话

❤️来个「转发朋友圈」和「在看」,是最大的支持❤️
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值