php 网页转 word 文件

最新推荐文章于 2021-03-18 09:17:45 发布

hani1990

最新推荐文章于 2021-03-18 09:17:45 发布

阅读量484

点赞数

分类专栏： php

本文链接：https://blog.csdn.net/liumeng305/article/details/45227245

版权

php 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

首先是一个 PHP 的类文件

然后调用这个类

这里是封装成一个函数，方便调用

//html2word
/**
* 根据HTML代码获取word文档内容
* 创建一个本质为mht的文档，该函数会分析文件内容并从远程下载页面中的图片资源
* 该函数依赖于类MhtFileMaker
* 该函数会分析img标签，提取src的属性值。但是，src的属性值必须被引号包围，否则不能提取
*
* @param string $content HTML内容
* @param string $absolutePath 网页的绝对路径。如果HTML内容里的图片路径为相对路径，那么就需要填写这个参数，来让该函数自动填补成绝对路径。这个参数最后需要以/结束
* @param bool $isEraseLink 是否去掉HTML内容中的链接
*/
function getWordDocument( $content , $absolutePath = "" , $isEraseLink = true ){

   import('Org.MhtFileMaker');//导入email类
    $mht = new MhtFileMaker();
    if ($isEraseLink)
        $content = preg_replace('/<a\s*.*?\s*>(\s*.*?\s*)<\/a>/i' , '$1' , $content);   //去掉链接

    $images = array();
    $files = array();
    $matches = array();
    //这个算法要求src后的属性值必须使用引号括起来
    if ( preg_match_all('/<img[.\n]*?src\s*?=\s*?[\"\'](.*?)[\"\'](.*?)\/>/i',$content ,$matches ) )
    {
        $arrPath = $matches[1];
        for ( $i=0;$i<count($arrPath);$i++)
        {
            $path = $arrPath[$i];
            $imgPath = trim( $path );
            if ( $imgPath != "" )
            {
                $files[] = $imgPath;
                if( substr($imgPath,0,7) == 'http://')
                {
                    //绝对链接，不加前缀
                }
                else
                {
                    $imgPath = $absolutePath.$imgPath;
                }
                $images[] = $imgPath;
            }
        }
    }
    $mht->AddContents("tmp.html",$mht->GetMimeType("tmp.html"),$content);

    for ( $i=0;$i<count($images);$i++)
    {
        $image = $images[$i];
        if ( @fopen($image , 'r') )
        {
            $imgcontent = @file_get_contents( $image );
            if ( $content )
                $mht->AddContents($files[$i],$mht->GetMimeType($image),$imgcontent);
        }
        else
        {
            echo "file:".$image." not exist!<br />";
        }
    }

    return $mht->GetFile();
}

调用实例：

file_get_contents() 获取对应url 的网页内容(html)

        $url= "http://blog.csdn.net/samxx8/article/details/6601175";
        $content = file_get_contents($url);
        $fileContent = getWordDocument($content, $url );
        $fp = fopen("test.doc", 'w');
        fwrite($fp, $fileContent);
        fclose($fp);

hani1990

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php 网页转 word 文件

首先是一个 PHP 的类文件然后调用这个类这里是封装成一个函数，方便调用//html2word/** * 根据HTML代码获取word文档内容 * 创建一个本质为mht的文档，该函数会分析文件内容并从远程下载页面中的图片资源 * 该函数依赖于类MhtFileMaker * 该函数会分析img标签，提取src的属性值。但是，src的属性值必须被引号
复制链接

扫一扫

专栏目录