Python爬取各种主要文档类型的方法简介

最新推荐文章于 2023-02-09 11:43:11 发布

松鼠爱吃饼干

最新推荐文章于 2023-02-09 11:43:11 发布

阅读量368

点赞数

分类专栏：爬虫文章标签： python 爬虫

原文链接：https://mp.weixin.qq.com/s?src=11&timestamp=1606375942&ver=2729&signature=wcWOuCVcLUZJAyx4K8sqXbYeE9u573H7obecchVlK6kqwh3u4kEuFnUD910ZT77YWbA8OgWw0cGBlY0nx73U6Op81ATrDRqCVYOdvKAQ*LV0fGkD-CpEziGhjaWDAeZ6&new=1

版权

爬虫专栏收录该内容

302 篇文章 128 订阅

订阅专栏

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于python教程，作者：小雨

刚接触Python的新手、小白，可以复制下面的链接去免费观看Python的基础入门教学视频

https://v.douyu.com/author/y6AZ4jn9jwKW

前言

HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法，以备查阅。

Python爬取各种主要文档类型的方法简介

Python爬取各种主要文档类型的方法简介

抓取TXT文档

在python3下，常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。

Python爬取各种主要文档类型的方法简介

如果抓取的是某个HTML，最好先分析，例如：

Python爬取各种主要文档类型的方法简介

抓取CSV文档

Python爬取各种主要文档类型的方法简介

抓取PDF文档

Python爬取各种主要文档类型的方法简介

抓取word

方法：

（1）利用urlopen抓取远程word docx文件；

（2）将其转换为内存字节流；

（3）解压缩（docx是压缩后文件）；

（4）将解压后的文件作为xml读取

（5）寻找xml中的标签（正文内容）并处理

Python爬取各种主要文档类型的方法简介

松鼠爱吃饼干

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。