知乎爬虫

        断断续续写的爬虫现在总算能用了,主要功能是将知乎收藏夹保存下来并通过邮箱发送到手机上。

        期间学习到的内容主要为:re模块、mail模块、decode和encode、ini文件以及Beautifulsoup,当然学习的过程显得仓促浅显,对于这些内容的更加深入的学习也是接下来的任务之一。

        完成期间耗费时间最多的地方出现在自己老想着如何将HTML转换为更加适合在手机上阅读的PDF格式,为此我尝试了许多模块:xhtml2pdf、pdfkit、weasyprint。。。结果都有各自的瑕疵。虽然最终找到了Sigil来把HTML转换为EPUB电子书格式,但觉得在这种过于细节的地方花费大量时间显得有些不值。
        当然这一爬虫不会就这样结束,接下来将会尝试在其中加入多线程。
        附上爬虫地址: https://github.com/bmind/zhihu-crawler/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值