抓取网页内容生成kindle电子书

参考:

  • http://calibre-ebook.com/download_linux
  • http://blog.codinglabs.org/articles/convert-html-to-kindle-book.html

The Linux Command Line

#TLCL.recipe
from calibre.web.feeds.recipes import BasicNewsRecipe
class The_Linux_Command_Line(BasicNewsRecipe):
 
    title = 'The Linux Command Line'
    description = 'The Linux Command Line'
    cover_url = 'http://img5.douban.com/lpic/s7056078.jpg'
 
    url_pre = 'http://billie66.github.io/TLCL/book/'
    no_stylesheets = True
    keep_only_tags = [{ 'class': 'typo' }]    #内容的寻找范围
 
    def parse_index(self):
        soup = self.index_to_soup(self.url_pre)#目录页
 
        div = soup.find('div', {'class': 'contents'})#目录页的寻找范围
 
        articles = []
        for link in div.findAll('a'):
                
            til = link.contents[0].strip()
            url = self.url_pre + link['href']
            a = { 'title': til, 'url': url }
 
            articles.append(a)
 
        results = [('The Linux Command Line', articles)]
 
        return results

 

转载于:https://www.cnblogs.com/flowjacky/p/4461595.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值