一、文档
这里的文档包括:百度文档、豆丁文档、doc88等,理论上,只有可以使用浏览器打开或者“阅读”的文档,都是可以下载或者“保存”的。
二、内容保存
文档保存大体分为两类,一类是文字内容的保存,前提是原始文档是支持文字形式读取的,比如本身就是word格式(doc或docx扩展名),另一种就是图片或者转换、合并为PDF,本质上还是图片,所有文档都可以以图片格式保存。
三、实现思路
首先,需要加载文档,显示所有的页面,所以需要操作浏览器,执行点击、页面滚动等;
其次,对页面元素进行快照(screenshot),最终“下载”的文档就是图片格式,或者通过获取元素中的文字部分,最终就是文字格式的文档。
通过编程语言实现自动化下载,例如python;
操作浏览器可以是selenium或pyppeteer,常用语句:
a = driver.find_element_by_id(“content”)
a.click()
driver.execute_script(“window.scrollBy(0,1000)”)
driver.execute_script(“window.scrollBy(0,1000)”)
a.screenshot(‘a.jpg’)