某读书软件书籍导出想法

读书

发现用读书软件很长时间了,这是一个很不错的软件。尤其是腾+讯出品,自带社交加成,能方便的知道大家在读什么书。于是,读书开始变得没有那么闭塞,也减少了读完一本书之后的慌张。
虽然我是程序员。可是,发现最近读的技术书籍反而越来越少,文学乃至小说反而越来越多。或许是职业的缘故,或许是生活节奏的缘故,不管怎么说这算是一个好习惯。
有时候一周能读10个小时,不过最近发现能保持一天读一个小时就很不错,尤其是家里还有小孩子。

一个想法

微+信读书软件既然是+讯的作品,肯定天然就带有腾+讯的尿性,要做任务增加免费天数,为了白嫖也是累坏了人。总想玩点好玩的。
不如写个爬虫把书籍download下来放到自己的kindle上,主要是趁着免费
不过好怕怕腾+讯爸爸。

存在的问题

通过我的调查发现,包括不仔细的查看wireshark包,以及查看微+信读书转存下来的网页:
微+信读书的网页中没有书籍的实际字符串,我想可能放到了js脚本里面,或者哪里,总之没有找到。
这样导致直接使用js或者python爬虫不太能“科学上网”。

也就是这个问题阻碍了我很久。包括无数次上网查询。也没有找到,或许是害怕腾+讯爸爸的报复。

想法

首先需要手动登录微+信读书的网页版,然后验证登录,打开某一本要读的书籍。

下边就是脚本可以做的事情了(算法流程):

  • 使用python脚本,搭配pynput库,控制鼠标以及滚轮。
  • 剪切当前的屏幕存储图片
  • 使用ocr解析文字,并转存 尝试了tesseract发现对简体中文的识别有点弱鸡
  • Python脚本scroll到网页底部,直到不能scroll为止
  • ocr找到下一章标签,并解析处坐标
  • python pynput点击下一章
  • 回到开始

算法可以更有趣一点就是变成多线程:
可以用一个线程批量下载图片,然后转存。
之后可以用另外的线程去ocr。

实际解决

现在的实现直到了上一步想法,希望有志之士可以按照我的想法实现一下。不如就当做一个小项目玩一下。

if you care about the progress of this, please check github,I am trying do this by myself.

I am busy for my own work. so, Maybe I have no much time to do this.

But, I do think this is one great idea.

现状

从本人的观点来看,代码的第一版已经写完。虽然行数不多,现在实现的功能可以借助宿主机上的chrome实现全屏截图,然后自动下一章,然后截图。并且将截取的图片保存起来。
从某种意义上来说,可以把这些图片当做书籍本身。

下一阶段

尝试借助python的selenium库,起一个chrome,在这个chrome上将上边实现的功能进行嵌入。这样可以将启动起来的chrome设定一个比较固定的大小,然后在这个上边将所有需要配置的参数进行配置。就能免去很多切换平台带来的诸多需要重新配置的麻烦。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值