python抓取处理word文档

最新推荐文章于 2024-06-20 21:16:10 发布

一只长不胖的猪

最新推荐文章于 2024-06-20 21:16:10 发布

阅读量2.4k

点赞数

分类专栏： python爬虫 word文档

本文链接：https://blog.csdn.net/JONE_WUQINGJIANG/article/details/101194059

版权

python爬虫同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

word文档

1 篇文章 0 订阅

订阅专栏

前面一篇讲到了处理pdf的内容，今天说下python对word的处理。其实python对word文档的支持不够。
为读取docx内容，可以使用以下方法：
（1）利用urlopen抓取远程word docx文件；
（2）将其转换为内存字节流；
（3）解压缩（docx是压缩后文件）；
（4）将解压后文件作为xml读取
（5）寻找xml中的标签（正文内容）并处理
下面是代码，传入url即可。

def wordTocontent(url):
    wordFile = urlopen(url).read()
    wordFile = BytesIO(wordFile)
    document = ZipFile(wordFile)  #
    xml_content = document.read("word/document.xml")
    wordObj = BeautifulSoup(xml_content.decode("utf-8"), "lxml")
    textStrings = wordObj.findAll("w:t")
    str_all = ''
    for textElem in textStrings:
        str_all = str_all + textElem.text
    return str_all

注意这个只对.docx的文档有效老版本的.doc不行。

一只长不胖的猪

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
python抓取处理word文档

前面一篇讲到了处理pdf的内容，今天说下python对word的处理。其实python对word文档的支持不够。为读取docx内容，可以使用以下方法：（1）利用urlopen抓取远程word docx文件；（2）将其转换为内存字节流；（3）解压缩（docx是压缩后文件）；（4）将解压后文件作为xml读取（5）寻找xml中的标签（正文内容）并处理下面是代码，传入url即可。def w...
复制链接

扫一扫

专栏目录