低调使用:免注册获取付费文档的办法

1.使用需求

平时我们经常需要查询搜索一些文档资料,往往会遇到查到的文档资料被各大平台无耻地设置为付费下载,而且一般会禁用从页面上复制的功能。扫描版的文档本身就是图片,无法将文字复制出来,文字版的也会受到限制,只能浏览不能复制下载。

如果这些文档资料是平台自身生产的也就罢了,付费也是应该的,但大多数平台采取的是让用户上传资料,付费方可下载,费用由上传者和平台按比例分成的模式。对于用户原创的资料付费使用也无可厚非。问题是基本上平台用的也都是上传者搬运的资料,比如国家标准规范之类的。这就有点过分了。

于是乎摸索了一个免费获取文档资料的小技巧,与大家分享一下。

2.软件准备

  1. unbuntu系统
  2. 浏览器(如firefox等)
  3. LibreOffice Draw
  4. Abbyy FineReader (Ocr文字识别软件,windows系统下)

3.操作步骤

比如我们要查找一个规范《GB∕T 36964-2018 软件工程 软件开发成本度量规范》,百度一下发现各大平台都有,而且都要付费下载。从其中找到一个不必付费就可以全文预览的,打开。

点击页面左上角的“下载”会提示付费方可下载,左上角的“打印”则提示仅供VIP用户使用。

此时,我们选择预览全文,待文档全文都可以在页面上看到时,使用浏览器的“打印”功能,将页面内容打印为pdf文件。

在打印预览窗口查看调整页面缩放比例,默认比例下,会将网页上的全部可见元素都打印出来,如链接、按钮、广告……等。

如果当前页面按70%的缩放比例打印出来,每一页的右侧都会出现页面1/4到1/3左右的边栏内容,链接、广告或空白,正文部分被缩得比较小。

适当调整缩放比例到95%,可以看到右侧的边栏被挤出了页面之外,正文所占比例基本达到正常水平。只是会有一些页面下方的链接等元素被挤到了下一页独占一页,总页数由22页变成了30页。不过没有关系,后续删除掉即可。

文件保存之后,使用Ubuntu自带的LibreOffice Draw打开。我用Ubuntu系统的目的也仅仅是为了用这个软件。目前已经支持Windows,只不过我的windows系统下没有安装,所以还是在Ubuntu下进行编辑。

打开pdf文件之后可以看到,我们关心的文档正文部分由于原稿是扫描版,在pdf中也是以图片形式嵌入在文档页面上的。其他从网页上带来的元素,都是以文本框、图片、图形、线条等方式呈现的,可以使用鼠标逐一进行选中、删除。这些元素可以理解为网页上的各种可见和不可见的图层和样式。比如下图中左侧缩略图最上面一页就是网页上的超链接等文本信息,没有正文,可以直接右键->删除。后面类似的无用页面都可以直接删除。

其他pdf编辑软件可能也能进行类似元素控件的选择和删除。但如果网页上有控件的上下层叠加遮挡,比如水印图片、浮动广告图片等,很多软件就不好处理了,即使处理过之后,被遮挡的文字内容也会缺失。而Draw这个软件就可以直接删除上层遮挡元素,保留下层的正文。

页面下方的文本框、页面线框等元素,也可以使用鼠标框选删除。

个人经验是:把正文图片稍微移开一点,用鼠标可以点选到的元素都可以删掉,再把正文图片对其页面即可。此处在页面无效元素都删除之后,把正文图片放大到充满页面的大小,因为扫描的原件中正文已经让出了页边距,在嵌入网页时又被让出了一次页边距,所以此时可以把图片充满页面,不必考虑页边距的问题。

下面是调整之后的效果。

都调整好之后使用“导出为pdf”将文件导出。此时一个完美的扫描版就产生了。

为了使用文档中的内容,还需要将扫描版pdf用OCR识别软件转换为文字版。这就是常规操作了,很多软件都可以实现,本人感觉效果最好的是Abbyy FineReader。这个软件好像是没有Ubuntu版,只好回到Windows下进行处理。(下次我要在windows下安装LibreOffice Draw了,不再费事切换系统了)

查到一篇介绍在Ubuntu下进行OCR识别的软件,下次也要试试,如果好用,也就不用切换回windows了。文章地址:https://www.cnblogs.com/usmile/p/14846701.html

原本想切换到windows把OCR的步骤补上,可惜我的软件试用期过了,一时没找到河蟹码,不过操作很简单。大家可以找个河蟹版试一下。

方法你学废了吗?如果有帮助欢迎点赞、评论或关注。

#点赞富三代,分享美一生#

  • 15
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于百度文库付费文档,一般情况下是需要付费才能查看和下载的,因此直接爬取是不合法的行为。如果您需要获取付费文档内容,可以考虑购买或者向作者进行合法获取。 如果您需要获取文档,可以尝试使用 Python 的 requests 库和 BeautifulSoup 库来实现。具体步骤如下: 1. 通过 requests 库发送请求,获取文档页面的 HTML 内容。 2. 使用 BeautifulSoup 库解析 HTML 内容,获取文档的下载链接。 3. 通过 requests 库再次发送请求,获取文档的下载链接对应的文件内容。 4. 将文件内容保存到本地。 下面是一个简单的示例代码: ```python import requests from bs4 import BeautifulSoup # 定义请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 构造请求URL doc_id = '123456' # 文档id url = 'https://wenku.baidu.com/view/{}/{}.html'.format(doc_id, doc_id) # 发送请求,获取HTML内容 response = requests.get(url, headers=headers) html_content = response.text # 解析HTML内容,获取下载链接 soup = BeautifulSoup(html_content, 'html.parser') download_url = soup.find('a', class_='downBtn')['href'] # 发送请求,获取文件内容 response = requests.get(download_url, headers=headers) file_content = response.content # 保存文件 with open('file.docx', 'wb') as f: f.write(file_content) ``` 需要注意的是,该代码仅适用于文档的爬取,对于付费文档的爬取是不合法的行为。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值