Google print相关技术以及下载方法

什么是google print

Google 最近增加了新的搜索引擎google print(http://print.google.com/),其中包
含相当数量的图书,据说是和多家大型图书馆合作,目标是在10年内建成世界上最大的网
络图书馆。但是google的目的并不是给人下载,而是供读者简单检索以向出版商和书店购
买该书,因此也没有任何收费项目。其图书目前采取的是图片的方式,大部分图书均包含
所有页面。以下我收集整理了相关的技术以及下载方法。

Google print URLs分析以及cookie

http://print.google.com/print?id=VvBRboW2icUC&pg=1&sig=hoLj_9Ot12vG6mSjZ
vK547vbP3E

这是典型的一页地址

Id是书籍号码,pg是页面编号,pg=1代表第一页。翻到下一页会看到:
http://print.google.com/print?id=VvBRboW2icUC&lpg=1&pg=2&sig=gBBbI6T
0FzHxgVeJJQKQqmZ_MNk

除了sig值不同以外(图片编号),多出了lpg,lpg=1代表你是从pg=1开始看的,google
print允许前翻2页,后翻2页。但是并不能通过随便更改lpg值获得更多的浏览页。此外,
增加zoom值可以放大图片倍数

另外,如果一本书你看了太多页,你将无法看更多页,其中涉及到goole的cookie,如果
不更改cookie,你将只能等待24小时,以使得其失效。相关的google cookie原理可参见
http://www.kuro5hin.org/story/2005/3/7/95844/59875,据该文作者说,他通过软件修
改cookie等方法可以下载google的整本书。可是没有给出相关软件。

如何看完整本书

一个相当笨却行之有效的方法是在所能达到的最后一页搜寻某单词检索,在结果中找到该
页,打开可以继续向下看。亦即:

一开始打开第一页,于是可以达到第三页,在第三页搜寻某单词,检索后返回若干结果,
找到第三页,打开,于是可以到达第五页,以此类推。

但是,我们知道,google print可以向前和向后看2页,如果你的搜索足够好,那么你可
以这样看,打开3,8,13…………,但是这样的方法比较难以实现。

无论如何这样的方法都太费时费力,不利于批量下载。而且因为上文提到的cookie问题,
你将需要若干天才能看完整本书。

保存图片

简单的方法可以到IE的Temporary Internet Files文件夹察看,选择那些来自
print.google.com的图像,一般文件头为print?id=(书的ID),根据书ID很容易找到。

另一种方法可以使用火狐浏览器插件实现:

安装firefox;
用firefox打开网址
http://ftp.mozilla.org/pub/mozilla.org/extensions/greasemonkey/greasemonkey-0.
3.3-fx.xpi
选择信任站点,安装
重新打开浏览器firefox,打开地址
http://diveintomark.org/projects/butler/
右击链接Download version 0.3 of April 14, 2005,选择install user script
重新打开浏览器firefox,检索http:// print.google.com/
打开电子书。右击图片,可以选择保存了。

受限制页

不少书都有受限制页,据说一般是整本书的10%-15%,往往出现在后半部,阅读受限制页
需要输入gmail帐号。

移除高亮黄条

一般搜索的短语或者单词会在页面中以高亮黄条标出。实际上采用很简单的方式可以移除
,将URL中的q值删除,例如:

http://print.google.com/print?id=-aAwQO_-rXwC&pg=354&img=1&q=neural+pattern&si
g=eqt38N2w5x6yqWat-G5r5_pzOpY

将q=neural+pattern删除。

或者使用软件去除,比如ImageMagick,如下操作:

convert -stroke white -fill white -draw ' rectangle 555,300 575,600' -fx "y"
-despeckle

此法亦可类似移除' Copyrighted Material' 字样。

btw:还有人专门研究这个,这是他的网页:
http://www.kuro5hin.org/story/2005/3/7/95844/59875
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值