php 读取docx,PHP怎么获取docx里面内容

本文介绍了如何读取docx文件中的内容,docx实际上是一个包含多个XML文件的zip包。重点在于word/document.xml,它存储了文档的主要内容。通过使用ZipArchive类在PHP中可以方便地解压并提取document.xml,然后利用strip_tags函数去除HTML标签,从而获取纯文本内容。需要注意的是,$file路径不应与代码在同一目录下。
摘要由CSDN通过智能技术生成

06dde4f4ee15b74f50e66d23b552024a.png

docx文件的读取

docx文件其实是由很多XML文件组成,其中内容就存在于word/document.xml里面。

我们找到一个docx文件,使用zip文件打开(或者把docx后缀名改为zip,然后解压)(推荐学习:PHP视频教程)

在word目录下有document.xml,docx文件的内容就存在于document.xml里面,我们读取这个文件就可以了.

代码如下:function parseWord($file) {

$content = "";

$zip = new ZipArchive ( );

if ($zip->open ($file) === TRUE ) {

for($i = 0; $i < $zip->numFiles; $i ++) {

$entry = $zip->getNameIndex ( $i );

if (pathinfo ($entry,PATHINFO_BASENAME) == "document.xml") {

$zip->extractTo (pathinfo ($file, PATHINFO_DIRNAME ) . "/" . pathinfo ($file, PATHINFO_FILENAME ), array (

$entry

) );

$filepath = pathinfo ($file, PATHINFO_DIRNAME ) . "/" . pathinfo ( $file, PATHINFO_FILENAME ) . "/" . $entry;

$content = strip_tags ( file_get_contents ( $filepath ) );

break;

}

}

$zip->close ();

return $content;

} else {

echo 'no';

}

}

值得注意的是:

第一 $file文件不能与当前代码在同一目录文件下,$file存放在单独的文件夹

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值