提取网页内容存储为word的方法

应用需求

word是我们平常办公最常用的文字处理软件之一了,但是我们第一手阅读的材料却并不通常是用word来写就的(非doc格式),可能是txt文本,pdf文件,更多的可能就是网页内容了。我们希望有一种轻快便捷的方案可以很容易地将网页内容导出成doc格式的文件,这样我们就可以用word来处理它们了。

今天老师让我办件事,是登录进一个问卷调查网页,将所有问卷内容提取出来,整理成word文件发给她。我在登进问卷(.aspx格式)后发现,网页内容是受保护的,不可以直接复制内容(点击右键没有任何响应)。

于是乎,我就面临了第一个考验,如何获取网页内容?

pdf2word

我的第一种方法是利用浏览器的打印功能,将网页保存为pdf。保存了4个pdf文件(因为问卷有4页)之后,我首先利用在线文档转换工具Smallpdf将4个pdf文件合二为一,然后在线转为word。

然而令我大失所望的是,转化成的word文件有太多太多的格式、字体问题,别说是编辑重用了,连阅读都不堪其用。我试了许多其他的pdf转word在线平台,效果都是半斤八两,不堪入目。

html2word

既然pdf不是一个明智的选择,我开始思考其他方案。我发现在浏览器中还有这样一个功能:将页面存储为html格式。以谷歌为例,在功能->更多工具中选中另存为html,就可以将当前网页的html格式连同一个链接文件(如果存在)一起下载到本地。

接下来的操作异常简单:

  • 选择下载好的html文件,右键点击“打开方式”选项,用Word打开;
  • 打开后可以看到文件格式与网页中显示基本一致,选择“文件另存为”,存成以“docx”为后缀的文件;
  • 如果html中有引用文件包中的链接,需要对其进行编辑(我遇到的网页无此情形);
  • 可尝试删除与html文件一起被下载的文件包,以免每次打开html转成的word文件都需要授权。

这样一来,一个可以分享给他人的word文件就完成了。
为了方便以后的工作,以及分享给有需要的人,暂且把这些操作记录下来。
【其实我是个科研工作者~~~】

参考内容:
http://code.makery.ch/library/convert-web-page-to-word/

从多个网页的完整或选定内容创建Microsoft Word文档。 此扩展程序将完整的网页网页的选定部分转换为Microsoft Word文档(docx)。您还可以选择将来自多个网页的内容或仅将其中的选定部分转换为单个Word文档。转换后的文档可以下载到本地磁盘。该扩展读取当前页面或所选部分HTML结构,并将其转换为相应的docx结构。限制:-1.安装/更新-安装或更新后,此扩展名不适用于在安装/更新之前打开的标签页,除非重新加载了这些标签页或重新启动了chrome 2.我可以转换什么? -此扩展程序可以将除以下页面之外的任何网页转换为Microsoft Word文档-所有Chrome网上应用店页面(包括此页面) Urls以chrome://开头 chrome:// extensions以chrome-extension://开头的URL。3.某些转换后的页面看起来不一样-所有内容都被转换为Word文档,其中大部分格式保持不变。布局可能会有所不同 4.为什么某些网页的文件显示方形框? -对于非英语的网页,尤其会发生这种情况。目前,应用程序不支持所有语言所需的字体转换 5.为什么本地HTML文件不起作用? -出于安全原因,Chrome浏览器不允许扩展名访问File Urls,除非得到用户的明确许可。如果您希望扩展程序适用于本地HTML文件,那么您要做的就是-1.访问扩展程序管理页面(chrome:// extensions) 2.转到“将网页Word文档”扩展名 3.选中“允许访问文件URL”复选框 4.重新加载本地HTML文件。 支持语言:English
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值